P51 各式各样的神奇的自注意力机制

2023-12-19 21:44:14

在这里插入图片描述

计算量大

当input sequence 很长时,计算量特别大

  • self-atttention 至少一个大模型的一部分
  • 当input sequence 很长时,主要运算来自self - attention, 加快 self attention ,才能有明显的加快速度
  • 在这里插入图片描述

变形

  1. local attention
    只计算左右两个位置的 attention weight, 其他位置设为0
    缺陷: 只看到某个小范围的咨询
    那岂不是跟CNN一样
    计算快,但是效果不一定好

在这里插入图片描述
2. stride attention

如看两个间隔一个, 或者看一个间隔一个
在这里插入图片描述
3. global attention

在这里插入图片描述

在这里插入图片描述
所有的 attention 变形一起上

在这里插入图片描述

直接估计在 atteontion matrix 里哪些位置数值大,哪些小,小的直接设为0
在这里插入图片描述

  • 怎么快速预估attention weights?
    (聚类,根据相似性)
    在这里插入图片描述
    在这里插入图片描述

是否需要所有的 attention matrix

在这里插入图片描述
选择有代表性的K
在这里插入图片描述

如何选择有代表性的K

CNN : 长sequence 变成 短 sequence
Linformer
在这里插入图片描述
在这里插入图片描述
Q K 维数需要一样,V不一定

转变计算顺序 矩阵相乘的顺序,计算量不一样
在这里插入图片描述
在这里插入图片描述

在这里插入图片描述

在这里插入图片描述

总结

在这里插入图片描述

文章来源:https://blog.csdn.net/weixin_39107270/article/details/135083237
本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。