大模型上下文扩展之YaRN解析:从直接外推ALiBi、位置插值、NTK-aware插值、YaRN
前言
下半年以来,我全力推动我司大模型项目团队的组建,我虽兼管整个项目团队,但为了并行多个项目,最终分成了三个项目组,每个项目都有一个项目负责人,分别为霍哥、阿荀、朝阳
- 在今年Q4,我司第一项目组的第一个项目「AIGC模特生成平台」得到CSDN蒋总的大力支持,并亮相于CSDN举办的1024程序员节,一上来就吸引了很多市里领导、媒体、观众的关注,如今该平台的入口链接已在七月官网右上角
- 而第二项目组的论文审稿GPT,我和阿荀则一直全程推动整个流程的开发(第一版详见此文的第三部分、第二版详见:七月论文审稿GPT第2版:从Meta Nougat、GPT4审稿到Mistral、LongLora Llama)
到12月中旬,进入了模型训练阶段,选型的时候最开始关注的两个模型,一个Mistral 7B,一个Llama-LongLora,但考虑到前者的上下文长度是8K,面对一些论文时可能长度还是不够,于是我们便考虑让Mistral结合下YaRN
所以本文重点介绍下YaRN,顺带把位置编码外推ALiBi、线性插值等相关的方法一并总结下 - 至于第三项目组的知识库问答项目则也一直在并行推进,核心还是一系列各种细节问题的优化,而这个优化过程还是比较费时的
YaRN本质上是一种新的RoPE扩展方法(至于RoPE详见此文),可以比较高效的扩展大模型的上下文窗口,本文的写就基于YaRN论文:YaRN: Efficient Context Window Extension of Large Language Models,且为方便大家更好的理解本文,特地提前列下本文重要的几个参考文献(当下文出现带中括号的[6]、[7]、[9]时,便特指的以下相关文献)
-
[6] bloc97. NTK-Aware Scaled RoPE allows LLaMA models to have extended (8k+) context size without any fine-tuning and minimal perplexity degradation., 2023.
URL https://www.reddit.com/r/LocalLLaMA/comments/14lz7j5/ntkaware_ scaled_rope_allows_llama_models_to_have/
提出了NTK-Aware插值 -
[7] bloc97. Add NTK-Aware interpolation "by parts" correction, 2023. URL https://github.com/jquesnelle/scaled-rope/pull/1.
提出了 “NTK-by-parts”插值 -
[9] S. Chen, S. Wong, L. Chen, and Y. Tian. Extending context window of large language models via positional interpolation, 2023. arXiv: 2306.15595.
该研究团队来自Meta,该篇论文提出了 位置内插PI
有何问题 欢迎随时留言评论,thanks
第一部分 背景知识:从进制表示谈到直接外推、线性内插、进制转换
1.1 从进制表示到直接外推
注,本部分内容援引自苏剑林博客中的部分内容,为更易懂,我在其基础上做了一定的修改、解读
1.1.1 进制表示
假设我们有一个1000以内(不包含1000)的整数要作为条件输入到模型中,那么要以哪种方式比较好呢?
- 最朴素的想法是直接作为一维浮点向量输入,然而0~999这涉及到近千的跨度,对基于梯度的优化器来说并不容易优化得动。那缩放到0~1之间呢?也不大好,因为此时相邻的差距从1变成了0.001,模型和优化器都不容易分辨相邻的数字
- 进一步,对于一个整数,比如759,这是一个10进制的三位数,每位数字是0~9。既然我们自己都是用10进制来表示数字的,为什么不直接将10进制表示直接输入模型呢?也就是说,我们将整数n以一个三维向量[a,b,c]来输入,a,b,c分别是n的百位、十位、个位
至于如果想要进一步缩小数字的跨度,我们还可以进一步缩小进制的基数,如使用8进制、6进制甚至2进制,代价是进一步增加输入的维度
1.1.2 直接外推
苏剑林说,假设我们还是用三维10进制表示训练了模型,模型效果还不错。然后突然来了个新需求,将n上限增加到2000以内,那么该如何处理呢?
如果还是用10进制表示的向量输入到模型,那么此时的输入就是一个四维向量了。然而,原本的模型是针对三维向量设计和训练的,所以新增一个维度后,模型就无法处理了。可能有读者想说,为什么不能提前预留好足够多的维度呢?
没错,是可以提前预留多几维,训练阶段设为0,推理阶段直接改为其他数字,这就是外推(Extrapolation)
然而,训练阶段预留的维度一直是0,如果推理阶段改为其他数字,效果不见得会好,因为模型对没被训练过的情况不一定具有适应能力。也就是说,由于某些维度的训练数据不充分,所以直接进行外推通常会导致模型的性能严重下降。
1.2 从线性内插到进制转换
1.2.1 线性内插
于是,有人想到了将外推改为内插(Interpolation),简单来说就是将2000以内压缩到1000以内
- 比如通过除以2,1749就变成了874.5,然后转为三维向量[8,7,4.5]输入到原来的模型中
从绝对数值来看,新的[7,4,9]实际上对应的是1498,是原本对应的2倍,映射方式不一致;
从相对数值来看,原本相邻数字的差距为1,现在是0.5,最后一个维度更加“拥挤” - 所以,做了内插修改后,通常都需要微调训练,以便模型重新适应拥挤的映射关系
当然,有读者会说外推方案也可以微调。是的,但内插方案微调所需要的步数要少得多
- 因为很多场景(比如位置编码)下,相对大小(或许说序信息)更加重要,换句话说模型只需要知道874.5比874大就行了,不需要知道它实际代表什么多大的数字。而原本模型已经学会了875比874大,加之模型本身有一定的泛化能力,所以再多学一个874.5比874大不会太难
- 不过,内插方案也不尽完美,当处理范围进一步增大时,相邻差异则更小,并且这个相邻差异变小集中在个位数,剩下的百位、十位,还是保留了相邻差异为1。换句话说,内插方法使得不同维度的分布情况不一样,每个维度变得不对等起来,模型进一步学习难度也更大
1.2.2 进制转换
有没有不用新增维度,又能保持相邻差距的方案呢?有,那就是进制转换
- 三个数字的10进制编码可以表示0~999
- 如果是16进制呢?它最大可以表示
所以,只需要转到16进制,如1749变为(咋计算得来的?很简单,1749不断除以16,并记录下每次的余数,,这些余数从最后一个到第一个组成了1749的十六进制表示,即“6 13 5”),那么三维向量就可以覆盖目标范围,代价是每个维度的数字从0~9变为0~15
刚才说到,我们关心的场景主要利用序信息
- 原来训练好的模型已经学会了,而在16进制下同样有,比较规则是一模一样的
- 唯一担心的是每个维度超过9之后(10~15)模型还能不能正常比较,但事实上一般模型也有一定的泛化能力,所以每个维度稍微往外推一些是没问题的。所以,这个转换进制的思路,甚至可能不微调原来模型也有效
另外,为了进一步缩窄外推范围,我们还可以换用更小的即13进制而不是16进制
第二部分 从RoPE、直接外推、位置内插到NTK-aware/NTK-by-parts/Dynamic NTK插值
基于transformer的大型语言模型(llm)已经成为许多自然语言处理(NLP)任务的选择,其中远程能力(如上下文学习(ICL))至关重要。在执行NLP任务时,其上下文窗口的最大长度一直是预训练LLM的主要限制之一。能够通过少量的微调(或不进行微调)来动态扩展上下文窗口已经变得越来越受关注。为此,transformer的位置编码是核心焦点
- 最初的Transformer架构使用了绝对正弦位置编码,后来被改进为可学习的绝对位置编码[Convolutional sequence to sequence learning]。此后,相对位置编码方案[Self-attention with relative position representations]进一步提升了transformer的性能。目前,最流行的相对位置编码是T5 relative Bias[Exploring the limits of transfer learning with a unified text-to-text transformer]、RoPE[34]、XPos[35]和ALiBi[Attention with linear biases enables input length extrapolation]
- 位置编码的一个反复出现的限制是无法对「训练期间看到的上下文窗口之外的情况」进行泛化
One reoccurring limitation with positional encodings is the inability to generalize past the context window seen during training
虽然ALiBi等一些方法能够进行有限的泛化,但没有一种方法能够泛化到明显长于预训练长度的序列 - 好在已经有一些工作正在尝试克服这种限制。比如位置插值(Position Interpolation, PI)[Extending context window of large language models
via positional interpolation]通过对RoPE进行轻微修改,并对少量数据进行微调,从而扩展上下文长度 - 作为一种替代方案,Reddit一网友bloc97通过该帖子,提出了“NTK-aware”插值方法[NTK-Aware Scaled RoPE allows LLaMA models to have extended(8k+) context size without any fine-tuning and minimal perplexity degradation],该方法考虑到高频信号的损失
此后,对“NTK感知”插值提出了两项改进
- 无需微调的预训练模型的“动态NTK”插值方法[14]
- 在对少量较长的上下文数据进行微调时表现最佳的“NTK-by-parts”插值方法[7]
“NTK感知”插值和“动态NTK”插值已经在开源模型中出现,如Code Llama[31](使用“NTK感知”插值)和Qwen 7B[2](使用“动态NTK”)
2.1 旋转位置嵌入
2.1.1 RoPE的快速回顾
YaRN的基础是[RoFormer: Enhanced transformer with rotary position embedding]中介绍的旋转位置嵌入(RoPE)
RoPE是理解本文的重要基础,但考虑到本博客内已有另一篇文章详细阐述了位置编码与RoPE,所以如果你对本节有任何疑问,可进一步参考此文《一文通透位置编码:从标准位置编码、欧拉公式到旋转位置编码RoPE》
所以下面只参照YaRN论文做个最简单的回顾
- 首先,我们在一个隐藏层上工作,隐藏神经元的集合用表示。给定向量序列,遵循RoPE的表示法,注意力层首先将向量转换为查询向量和关键向量:
- 接下来,注意力权重被计算为
其中、被认为是列向量,因此就是简单的欧氏内积。在RoPE中,我们首先假设是偶数,并将嵌入空间和隐藏状态识别为complex vector spaces
其中内积转化为的实部「where the inner product q T k becomes the real part of the standard Hermitian inner product Re(q ?k),如对该点有疑问的,请参见此文的3.2.1节」,更具体地说,同构将实数部分和复数部分交织在一起(the isomorphisms interleave the real part and the complex part) - 为了将嵌入、转换为查询向量和键向量,我们首先给出了R-linear算子
在复坐标中,函数,分别由以下的式子计算得到
这样做的好处是,查询向量和关键向量之间的点积只取决于如下所示的相对距离
在实坐标中,RoPE可以用下面的函数来表示
如此,便有
2.1.2?位置的旋转位置编码(RoPE),本质上就是数字的进制编码
如苏剑林所说,位置的旋转位置编码(RoPE),本质上就是数字的进制编码
为了理解这一点,我们首先回忆一个10进制的数字,我们想要求它的进制表示的(从右往左数)第位数字,方法是根据下面的公式计算得到(记为公式1)
也就是先除以次方,然后求模(余数)
以上咋推导得来的呢?为方便大家一目了然,我再解释下
例如,让我们找到十进制数12345中从右边数的第三位的数字,相当于,(因为是十进制),(因为要找的是第三位)
- 按照公式,我们首先计算
- 然后,我们计算 除以 ,即
- 接下来,我们取这个结果的向下取整值,也就是去掉小数部分,得到
- 最后,我们对 取模,得到
所以,12345的从右边数的第三位数字是3
然后苏剑林在其博客中再说道,然后再来回忆RoPE,它的构造基础是Sinusoidal位置编码,可以改写为下面的公式(记为公式2)
其中,
现在,对比公式1、公式2,是不是也有一模一样的?至于模运算,它的最重要特性是周期性,式(2)的cos,sin是不是刚好也是周期函数?所以,除掉取整函数这个无关紧要的差异外,RoPE(或者说Sinusoidal位置编码)其实就是数字的进制编码
可能有的读者还是有点问题,可能还是得再解释下
首先,我们通过上文已多次提到的此文《一文通透位置编码:从标准位置编码、欧拉公式到旋转位置编码RoPE、ALiBi》,来回顾下transformer原始论文中的Sinusoidal位置编码
如阿荀所说,可知
其中
- ?的取值范围为,啥意思?意味着
所以,也就有了上面的公式2
pos
(0 2 4等偶数维用sin函数计算)公式2中的指数项 0 0 1 0 2 1 3 1 4 2 5 2 6 .... 510 511
// 待更
2.2 直接外推之ALiBi
此文《一文通透位置编码:从标准位置编码、欧拉公式到旋转位置编码RoPE、ALiBi》的第4部分已经详细介绍过了ALiBi
简言之,ALiBi是对Transformers进行长度外推,即在短上下文窗口上进行训练,并在较长的上下文窗口上进行推理
- 好处是虽然一开始不用对模型结构做任何更改
- 但坏处是直接把位置外推到没有见到的地方会导致模型灾难性的崩坏(例如体现在PPL陡增),为了弥补,需要再做一些微调
// 待更..
2.3 位置内插:基于Positional Interpolation扩大模型的上下文窗口
2.3.1 什么是位置内插Positional Interpolation
由于语言模型通常是用固定的上下文长度进行预训练的,自然会问如何通过在相对较少的数据量上进行微调来扩展上下文长度
对于使用RoPE作为位置嵌入的语言模型,Chen等人[9]和kaiokendev[21]同时提出了位置插值(position Interpolation, PI),将上下文长度扩展到预训练极限之外
对于后者,(Super-HOT kaiokendev(2023)),它也在RoPE中插入了位置编码,将上下文窗口从2K扩展到8K
对于前者,按照该篇论文《Extending context window of large language models via positional interpolation》,可知
- 关键思想是,我们不是进行外推,而是直接将位置索引缩小,使最大位置索引与预训练阶段的先前上下文窗口限制相匹配
we directly down-scale the position indices so that the maximum position index matches the previous context window limit in the pre-training stage
如下图所示,下图左上角为预训练阶段的位置向量范围[0,2048],右上角为长度外推的部分(2048,4096]
如果直接使用位置(2048,4096]进行推理,那么因为模型没有见过这一部分的位置,效果会出现灾难性的下降。那么,就把[0,4096]这个区间”压缩“到[0,2048]不就可以了嘛
于是,原先的1就变成了0.5,4096就变成了2048,这就是位置内插法,即把没见过的位置映射到见过的位置 - 相当于对于绝对位置??,我们把它”缩放“一下,变成 。其中,?为原先支持的长度(如2048),为需要扩展的长度(如4096)。这样,在计算query和key的时候,就有 其中是超出预训练限制的新上下文窗口。通过原始的预训练模型加上修改的RoPE公式,他们在几个数量级更少的token上进一步微调了语言模型,并成功实现了上下文窗口扩展
- 考虑到扩展的上下文长度与原始上下文长度之间的比例一直特别重要,我们以此定义
有了这个定义,我们便可以将公式重写并简化为以下一般形式(其中,):
最终,通过位置插值方法,将预训练的7B、13B、33B和65B LLaMA模型(Touvron等人,2023)扩展到大小为32768的各种上下文窗口,除了重新缩放使用位置插值扩展的模型的位置索引外,没有以任何方式修改LLaMA模型架构
2.3.2 位置内插的问题
话说,位置插值法有什么问题呢?
- 我们先看下三角函数,它的周期是,对应到RoPE里的每个维度,其中?(其中,?是指位置,?是指维度)
- 计算得到周期为:,其中,用??表示base,即10000
从周期计算的公式我们可以知道,针对不同的维度编码 ,每个维度对应的三角函数周期是越来越大的(即对应到低频、高频)
如果插值是针对绝对位置,那么对每个维度 都同等地生效;但是周期小(高频)维度,插值之后会变得很密集(本来一个周期包含10个值,但是内插之后能包含20个值),这样高频的维度就变的很拥挤
2.4 从“NTK-aware”插值到“NTK-by-parts”插值、"Dynamic NTK"插值
2.4.1 “NTK-aware”插值
在本节中,我们首先考虑RoPE中定义的波长。为简单起见,我们省略了中的下标,并将视为任意周期函数的波长
我们定义为RoPE嵌入在第隐维处的波长:
波长描述了在维上嵌入的RoPE执行完整旋转(2π)所需的标记长度
假设一些插值方法(例如位置插值PI)不关心波长的维数,我们将这些方法称为“盲”插值方法(blind interpolation),而其他方法(如YaRN),我们将其归类为“有针对性的”插值方法
为了解决RoPE嵌入插值时丢失高频信息(losing high frequency information when interpolating the RoPE embeddings)的问题,Reddit一网友通过[NTK-Aware Scaled RoPE allows LLaMA models to have extended (8k+) context size without any fine-tuning and minimal perplexity degradation]开发了“NTK-aware”插值,核心思想是:高频外推,低频内插
- 我们不是将RoPE的每个维度平均缩放一个因子,而是通过减少高频的缩小和增加低频的放大来将插值压力分散到多个维度(Instead of scaling every dimension of RoPE equally by a factor s, we spread out the interpolation pressure across multiple dimensions by scaling high frequencies less and low frequencies more)
- 虽然人们可以通过许多方法获得这样的变换,但最简单的方法是对θ的值进行基础更改(One can obtain such a transformation in many ways, but the simplest would be to perform a base change on the value of θ)
“NTK-aware”的内插方案如下
“NTK-aware”插值是对RoPE的修改,使用
和以下函数
且
与位置插值PI相比,该方法在扩展非微调模型的上下文大小方面表现得更好
- 然而,这种方法的一个主要缺点是,由于它不仅仅是一种插值方案,一些维度被轻微外推到“超出边界”的值,因此使用“NTK-aware”插值[6]进行微调的结果不如PI[9]
- 此外,由于存在“越界”值,理论尺度因子并不能准确描述真实的上下文扩展尺度。在实践中,对于给定的上下文长度扩展,尺度值s必须设置得高于预期尺度
我们注意到,在本文发布前不久,Code Llama[31]发布了,并通过手动将基数b扩展到1M来使用“NTK-aware”扩展
2.4.2 相对局部距离的损失-“NTK-by-parts”插值
在像PI和“NTK-aware”插值这样的blind interpolation方法中,我们面对所有RoPE隐藏维度的没有做任何针对性的处理(因为它们对网络有相同的影响)
关于RoPE嵌入的一个有趣的观察是
- 给定上下文大小L,有一些维度d的波长长于预训练期间看到的最大上下文长度(λ?> L),这表明一些维度的嵌入可能在旋转域中不均匀分布(might not be distributed evenly in therotational domain)
在这种情况下,我们假设拥有所有唯一的位置对意味着绝对的位置信息保持完整(we presume having all unique position pairs implies that theabsolute positional information remains intact)
相反,当波长较短时,只有相对位置信息可以被网络访问(when the wavelength is short, onlyrelative positional information is accessible to the network) - 此外,当我们以的比例或使用的基数将RoPE的所有维度进行拉伸时,所有tokens都变得更接近彼此,因为两个向量的点积旋转较小的量更大(as the dot product of two vectors rotated by a lesser amountis bigger)
这种缩放严重损害了LLM理解其内部嵌入之间的小型和局部关系的能力。我们假设,这种压缩导致模型在邻近标记的位置顺序上被混淆,从而损害模型的能力
This scaling severely impairs a LLM’s ability to understand small and local relationshipsbetween its internal embeddings.?We hypothesize that such compression leads to the model beingconfused on the positional order of close-by tokens, and consequently harming the model’s abilities.
2.4.3?"Dynamic NTK"插值
// 待更
介绍完“NTK-aware”插值、“NTK-by-parts”插值、"Dynamic NTK"插值之后,接下来即将介绍YaRN(另一种RoPE扩展方法),这是一种改进的方法,可以有效地扩展使用旋转位置嵌入(RoPE)训练的模型的上下文窗口,包括LLaMA[38]、GPT-NeoX[5]和PaLM[10]家族的模型
在对不到0.1%的原始预训练数据进行微调后,YaRN在上下文窗口扩展中达到了最先进的性能。同时,通过与称为动态缩放的推理时间技术相结合,Dynamic-yarn允许超过2倍的上下文窗口扩展,而无需任何微调
第三部分 YaRN全面解析
// 待更
参考文献与推荐阅读
- 了解几种外推方案做了什么
https://zhuanlan.zhihu.com/p/647145964
https://zhuanlan.zhihu.com/p/642398400 - Transformer升级之路:7、长度外推性与局部注意力
- Transformer升级之路:10、RoPE是一种β进制编码
- 大语言模型结构之:RoPE位置外推
创作、修订、完善记录
- 12.19,开始写本文的前两部分
- 12.21,修订第二部分..
- 12.22,新增一节:“2.1.2?位置的旋转位置编码(RoPE),本质上就是数字的进制编码”
本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。 如若内容造成侵权/违法违规/事实不符,请联系我的编程经验分享网邮箱:veading@qq.com进行投诉反馈,一经查实,立即删除!