Mamba线性时间序列框架超越Transformer模型?注意力机制如何翻身

2023-12-25 20:16:40

最近一个火爆AI圈的一个线性时间序列模型框架Mamba引起了大家的讨论,由于其性能在相关的实验上超越了transformer模型,让人不禁讨论注意力机制是否是大模型唯一的出路。transformer模型与mamba模型的大战也是一触即发,很多小伙伴们已经开始尝试把项目转移到mamba框架上。且mamba的开源代码已经上传到GitHub上,小伙伴们可以运行代码尝试。

目前几乎所有的大语言模型都是基于transformer模型框架。许多二次时间序列架构(例如线性注意力、门控卷积和循环模型以及结构化状态空间模型(SSM))已被开发来解决 Transformers 在长序列上的计算效率低下问题,但它们在重要模态上的表现并不好。

Mamba 是一种新的状态空间模型架构,在语言建模等信息密集数据上显示出良好的性能,而以前的二次模型在 Transformers 方面存在不足。Mamba基于结构化状态空间模型的,并使用FlashAttention进行高效的硬件设计和实现。

文章来源:https://blog.csdn.net/weixin_44782294/article/details/135205991
本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。