大模型入门0: 基础知识

2024-01-02 02:06:48

transformer
scaling law
分布式训练

自然语言处理包括几大任务

NLP: 文本分类，词性标注，信息检索
NLG：机器翻译，自动摘要，问答QA、对话机器ChatBot
下游任务: 词性标注（POS），句法分析（DP），命名实体识别（NER）和自然语言推理（NLI）,文档摘要，跨语种翻译，自然语言推理与情感分类

Transformer

几大范式

BERT
- 预训练，MLM, NSP
- 下游任务：通过finetune实现分类, NER, 句子相似度, 问答系统等
GPT
- 预训练, Next token prediction
- 下游任务: Prompting实现文本生成，语言翻译，对话生成，摘要生成等
T5
- 预训练任务: span corruption

T5

Bert

GPT

请添加图片描述

下游任务, 相比BERT对下游任务需要参数微调的代价，GPT3提出的prompt design, 通过instruction+prompt进行下游任务无需任何额外操作。后续Pre?x-tuning: Optimizing continuous prompts for generation提出了prompt tuning效果更好
in context learning: (few shot prompting, zero-shot transfer) 不需要进行参数更新，在模型inference阶段，为了让模型的能力迅速迁移到某个特定task，先给一些参考样例，模型就迅速领会，也就是example放在context里，模型从context领会，也就可以按照这个例子里的task输出了 .
instruction learning：更符合人类表达习惯的方式与LLM交互

GLM

大模型

大模型时代，则需要重点关注其zero-shot，few-shot，推理等能力。NLG通过prompt也能够实现NLU任务，主线逐渐变成了NLG任务。

PaLM: Pathways Language Model

数据
评测
模型
效果

Flan

LLama

scaling law

大模型时代，很多观念都需要更新了。scaling地方在于数据量，任务量，模型参数量。

分布式训练

分布式通信库：CPU上用MPI，GPU上用NCCL
点对点通信(Point-to-point Communication, P2P): 两个节点间通信，集合通信(Collective Communication, CC)：一组节点内通信
数据并行(DP)、模型并行(TP)、流水线并行(PP)
流水线并行: Gpipe,
- 模型的拓扑序，切分成p段，每一段为一个stage
- mini-batch进一步切分为几个大小的micro-batch
zero使用的几个阶段

reference

文章来源:https://blog.csdn.net/weixin_38812492/article/details/135320140
本文来自互联网用户投稿，该文观点仅代表作者本人，不代表本站立场。本站仅提供信息存储空间服务，不拥有所有权，不承担相关法律责任。如若内容造成侵权/违法违规/事实不符，请联系我的编程经验分享网邮箱：veading@qq.com进行投诉反馈，一经查实，立即删除！