工智能基础知识总结--什么是Transformer

2024-01-07 17:34:26

Transformer是什么

Transformer是Google在2017年的论文《Attention Is All You Need》中所提出的一种Seq2Seq的模型，该模型完全的抛弃了以往深度学习所使用的CNN、RNN等结构而全部使用Attention结构。Transformer的效果和并行性都非常好，其作为一个整体能被用于机器翻译、语音识别、文本摘要等传统Seq2Seq被应用的领域，基于其Encoder部分所构建的Bert、基于其Decoder部分所构建的GPT都是目前NLP领域十分热门的模型。
Transformer的结构
- 总体结构
  
  Transformer采用Seq2Seq架构，分为Encoder和Decoder模块，Encoder由6个Encoder子模块堆叠而成，Decoder由6个Decoder子模块堆叠而成。下图为其总览图：
  
  每一个Encoder子模块和Decoder子模块的内部结构如下图：
  
  可以看到，每个Encoder子模块包含两层，一个self-attention层和一个前馈神经网络；每个Decoder子模块包含三层，在self-attention层和前

文章来源:https://blog.csdn.net/Runnymmede/article/details/135367574
本文来自互联网用户投稿，该文观点仅代表作者本人，不代表本站立场。本站仅提供信息存储空间服务，不拥有所有权，不承担相关法律责任。如若内容造成侵权/违法违规/事实不符，请联系我的编程经验分享网邮箱：veading@qq.com进行投诉反馈，一经查实，立即删除！