一文读懂「Transformer」
2024-01-08 15:44:26
前面讲到过chatgpt的知识,提到了chatgpt的实现原理包含了transformer内容,所有非常有必要来补充一下这部分的内容。
资料:
- Attention is All You Need:Attention Is All You Need
一、什么是Transformer?
transformer由论文《Attention is All You Need》提出,完全基于Attention mechanism,抛弃了传统的CNN和RNN。
二、transformer结构
Transformer模型使用经典的encoder-decoder架构,由encoder和decoder两部分组成。
上图左侧用Nx框出来的,就是我们encoder的一层。encoder一共有6层这样的结构。
上图右侧用Nx框出来的,就是我们decoder的一层。decoder一共有6层这样的结构。
输入序列经过word embedding和positional embedding相加后,输入到encoder中。
输出序列经过word embedding和positional embedding相加后,输入到decoder中。
最后,decoder输出的结果,经过一个线性层,然后计算softmax。
三、
文章来源:https://blog.csdn.net/Julialove102123/article/details/135457093
本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。 如若内容造成侵权/违法违规/事实不符,请联系我的编程经验分享网邮箱:veading@qq.com进行投诉反馈,一经查实,立即删除!
本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。 如若内容造成侵权/违法违规/事实不符,请联系我的编程经验分享网邮箱:veading@qq.com进行投诉反馈,一经查实,立即删除!