一文读懂「Transformer」

2024-01-08 15:44:26

前面讲到过chatgpt的知识，提到了chatgpt的实现原理包含了transformer内容，所有非常有必要来补充一下这部分的内容。

资料：

Attention is All You Need：Attention Is All You Need

一、什么是Transformer？

transformer由论文《Attention is All You Need》提出，完全基于Attention mechanism，抛弃了传统的CNN和RNN。

二、transformer结构

在这里插入图片描述
Transformer模型使用经典的encoder-decoder架构，由encoder和decoder两部分组成。

上图左侧用Nx框出来的，就是我们encoder的一层。encoder一共有6层这样的结构。

上图右侧用Nx框出来的，就是我们decoder的一层。decoder一共有6层这样的结构。

输入序列经过word embedding和positional embedding相加后，输入到encoder中。

输出序列经过word embedding和positional embedding相加后，输入到decoder中。

最后，decoder输出的结果，经过一个线性层，然后计算softmax。

三、

文章来源:https://blog.csdn.net/Julialove102123/article/details/135457093
本文来自互联网用户投稿，该文观点仅代表作者本人，不代表本站立场。本站仅提供信息存储空间服务，不拥有所有权，不承担相关法律责任。如若内容造成侵权/违法违规/事实不符，请联系我的编程经验分享网邮箱：veading@qq.com进行投诉反馈，一经查实，立即删除！