Mixtral: 专家云集 高质量的稀疏专家组合

2023-12-15 20:38:18

Mixtral: 专家云集 高质量的稀疏专家组合

Mistral AI 继续履行其使命,为开发者社区提供最佳的开放模型。人工智能的发展需要采取新的技术转向,而不仅仅是重用众所周知的架构和训练范式。最重要的是,需要让社区从原始模型中受益,以促进新的发明和使用。

Mistral AI 团队自豪地发布了 Mixtral 8x7B,这是一个具有开放权重的高质量稀疏专家模型 (SMoE) 混合。在 Apache 2.0 下获得许可。Mixtral 在大多数基准测试中的表现优于 Llama 2 70B,推理速度提高了 6 倍。它是具有宽松许可证的最强开放模型,也是成本/性能权衡方面整体上的最佳模型。特别是,它在大多数标准基准测试上与 GPT3.5 相当或优于 GPT3.5。

Mixtral 具有以下功能:

  • 优雅地处理 32k 标记的上下文。
  • 处理英语、法语、意大利语、德语和西班牙语。
  • 在代码生成方面表现出强大的性能。
  • 可以微调为指令遵循模型,在 MT-Bench 上达到 8.3 分。

推动具有稀疏架构的开放模型的前沿

Mixtral 是一个稀疏的专家混合网络。是一种仅解码器模型,其中前馈模块从一组 8 组不同的参数中进行选择。在每一层,对于每个标记,路由器网络选择其中两个组(“专家”)来处理标记并将其输出累加组合。

这种技术增加了模型的参数数量,同时控制了成本和延迟,因为模型只使用每个标记参数集总数的一小部分。 具体来说,Mixtral 有 46.7B 的总参数,但每个标记只使用 12.9B 参数。因此,它以与 12.9B 模型相同的速度和相同的成本处理输入并生成输出。

Mixtral 根据从开放网络中提取的数据进行预训练——同时训练专家和路由器。

文章来源:https://blog.csdn.net/duan_zhihua/article/details/135014399
本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。