GPT-3: Language Models are Few-Shot Learners

2023-12-29 21:40:54

GPT-3

论文

数据集

CommonCrawl：文章通过高质量参考语料库对CommonCrawl数据集进行了过滤，并通过模糊去重对文档进行去重，且增加了高质量参考语料库以增加文本的多样性。
WebText：文章采用了类似GPT-2中的WebText文档收集清洗方法获得了更大范围的网页数据。
Books Corpora：此外文章增加了两个来自网络的书籍语料库。
Wiki：增加了英语百科语料库。

方法

模型架构基本延续GPT-2的基于Transformer的网络架构。相比于GPT-2做了如下改变：
- GPT-3采用了96层的多头transformer，头的个数为 96；
- 词向量的长度是12888
- 上下文划窗的窗口大小提升至 2048个token
- 在此基础上增加了Sparse-Transformer，即每次计算注意力的时候并不计算当前词与句子中所有词的注意力，而是通过Sparse Matrix仅仅计算当前词与句子中其它部分单词的注意力
In-context Learning

文章来源:https://blog.csdn.net/u013308709/article/details/135276239
本文来自互联网用户投稿，该文观点仅代表作者本人，不代表本站立场。本站仅提供信息存储空间服务，不拥有所有权，不承担相关法律责任。如若内容造成侵权/违法违规/事实不符，请联系我的编程经验分享网邮箱：veading@qq.com进行投诉反馈，一经查实，立即删除！