webhub123算法工程师的大语言模型LLM技术路线

2024-01-08 11:59:06

我们整理了当前认可度最高的一套 大语言模型LLM技术研究资料集合,整理到

webhub123 大语言模型学习路线图和关键技术

已经按照不同阶段做好了分组,点击每个卡片即可访问对应的论文和博客,方便您对技术由全局视图

1 大语言模型架构

最简单的transformer架构可视化讲解

illustrated-transformer 对照翻译

gpt2 最强最全面解释

3D可视化各种大语言模型 这里可视化了大语言模型的网络结构,包括GPT-2,GPT-3,Nano-GPT,界面不能切换视角,只能放大缩小。

attention机制的讲解




大语言模型中的decoder策略

?

B 站 Andrej Karpathy 从头开始实现一个 GPT 视频有2个小时,由 Andrej Karpathy 一步一步构建一个简单的GPT模型。这里展示的是nanoGPT

2 准备指导数据集

Alpaca 和 Alpaca-GPT4 指导数据集的准备过程 文章直接上代码了,讲解的较少。

medium 如何使用GPT-4合成临床问诊数据集

使用GPT 3.5来合成数据集来指导微调Llama 2

google colab 代码展示如何创建微调LLM的数据集

huggingface 的与LLM聊天模版

3 预训练模型

训练LLM可用的数据集 包含了一些开源可用的,预训练的、微调的、RLHF的数据集

huggingface 使用transformers 库从头训练一个GPT-2预训练模型

TinyLlama 从头训练一个小的羊驼模型 帮助你理解如何从头训练LLama模型

huggingface 因果语言模型和mask的语言模型以及如何微调DistilGPT-2模型

大语言模型中的scaling laws 以及如何把握

BLOOM 模型构建过程工程要点,以及遇到的问题解决方案

meta 训练一个175B参数的LLM的实验日志 它记录了整个训练过程遇到的所有问题,以及处理方案,这个PDF有114页,详细记录了整个训练过程的操作。如果你也要训练大模型,可以参考。

llm360 开源的LLM框架 包含LLM 数据准备、模型训练、参数评估等所有流程

4 监督微调

Lora 基于low-rank adapters 只训练部分低秩的adapters,无需训练所有参数。

QLora 高效训练LLM 在4Bit量化模型权重

axolotl 开源的LLM微调工具,很多开源大语言模型都在使用

deepspeed 多GPU多节点预训练和微调LLM

微调LLM的基本概念和参数设置指南

Lora最佳实践以及如何选择参数 作者总结了几百次的Lora实验经验

手把手教你如何微调Llama 2模型

给初学者的LLM微调手册

medium 训练因果LLM的最佳实践

5 从人类反馈来做强化学习RLHF

解释为什么RLHF 能够提升LLM性能

arxiv 论文 Proximal Policy Optimization Algorithms 近端策略优化算法,使用一个奖励函数来预测给定文本是否会被人类排序靠前。

arxiv: Direct Preference Optimization: Your Language Model is Secretly a Reward Model 将预测问题变成了分类问题。使用了一个引用模型而非奖励模型,进而只需要一个超参数。变得更加稳定高效。

huggingface 使用奖励模型训练,强化学习微调LLM

“StackLLaMA”: 用 RLHF 训练 LLaMA 的手把手教程

使用 DPO 微调 Llama 2

LLM Training: RLHF and Its Alternatives 介绍了RLHF和其他替代方案

6 模型评估

Github EleutherAI 开源的LLM评估框架

HuggingFaceH4 公认的LLM性能世界排名

PubMedQA 针对生物医疗问答的数据集和LLM评估排名

huggingface 聊天机器人LLM排名

google BIG-bench LLM评估指标

huggingface 讲解评估LLM常用的PPL指标

towardsdatascience 评估NLP任务中的文本输出BLEU评分

arxiv 论文:中科大、微软亚洲研究院等 评估LLM调查报告

7 量化

量化模型是将模型中的高精度浮点数转化成低精度的int或其他类型得到的新的,花销更小,运行更快的模型。

llama.cpp meta的LLama模型的c/c++接口 llama.cpp 运行期占用内存更小,推断速度也更快,同样的模型,7B 基础模型举例,32位浮点数的模型占用空间 27G,llama.cpp 量化后占用内存 9G 左右,推断速度为15字/秒。

GPTQ 量化技术 arxiv论文 一种后训练量化方法,相比其他后训练量化方法可以有效的处理10亿参数以上的模型。他基于Hessian matrix(海森矩阵)完成模型量化,而非常见的基于统计的方法。

消费级GPU上本地做LLM推理的库

mlabonne系列: LLM 模型量化入门技术博客

mlabonne系列: 使用ExLlamaV2库量化Mistral更快执行LLM

mlabonne系列: 使用GGUF和llama.cpp量化llama模型

medium博客: 理解Activation-Aware Weight(AWQ)量化技术

8 推理优化

Fast Transformer Decoding: Multi-Query Attention技术论文

google arxiv论文: Grouped-Query Attention (GQA)

追一科技: transformers中的位置编码 RoPE技术论文

AliBi:使用了线性biases的attention以增强输入文本长度

YaRN: LLM的高效上下文窗口拓展

huggingface: 如何在GPU加速推理

huggingface: 优化LLM内存和速度

huggingface: 推理解码,低延迟文本生成的新方向

eleuther ai的技术博客: RoPE的拓展 Rotary Position Embedding

LLM中拓展上下文的技术总结 这个博客总结了很多LLM中使用的上下文拓展技术,分析了难点和解决方案。

整理自 GitHub - mlabonne/llm-course: Course to get into Large Language Models (LLMs) with roadmaps and Colab notebooks.

文章来源:https://blog.csdn.net/huangxia73/article/details/135423598
本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。