Mixtral: 专家云集高质量的稀疏专家组合

2023-12-15 20:38:18

Mistral AI 继续履行其使命，为开发者社区提供最佳的开放模型。人工智能的发展需要采取新的技术转向，而不仅仅是重用众所周知的架构和训练范式。最重要的是，需要让社区从原始模型中受益，以促进新的发明和使用。

Mistral AI 团队自豪地发布了 Mixtral 8x7B，这是一个具有开放权重的高质量稀疏专家模型（SMoE）混合。在 Apache 2.0 下获得许可。Mixtral 在大多数基准测试中的表现优于 Llama 2 70B，推理速度提高了 6 倍。它是具有宽松许可证的最强开放模型，也是成本/性能权衡方面整体上的最佳模型。特别是，它在大多数标准基准测试上与 GPT3.5 相当或优于 GPT3.5。

Mixtral 具有以下功能:

优雅地处理 32k 标记的上下文。
处理英语、法语、意大利语、德语和西班牙语。
在代码生成方面表现出强大的性能。
可以微调为指令遵循模型，在 MT-Bench 上达到 8.3 分。

推动具有稀疏架构的开放模型的前沿

Mixtral 是一个稀疏的专家混合网络。是一种仅解码器模型，其中前馈模块从一组 8 组不同的参数中进行选择。在每一层，对于每个标记，路由器网络选择其中两个组（“专家”）来处理标记并将其输出累加组合。

这种技术增加了模型的参数数量，同时控制了成本和延迟，因为模型只使用每个标记参数集总数的一小部分。具体来说，Mixtral 有 46.7B 的总参数，但每个标记只使用 12.9B 参数。因此，它以与 12.9B 模型相同的速度和相同的成本处理输入并生成输出。

Mixtral 根据从开放网络中提取的数据进行预训练——同时训练专家和路由器。

文章来源:https://blog.csdn.net/duan_zhihua/article/details/135014399
本文来自互联网用户投稿，该文观点仅代表作者本人，不代表本站立场。本站仅提供信息存储空间服务，不拥有所有权，不承担相关法律责任。如若内容造成侵权/违法违规/事实不符，请联系我的编程经验分享网邮箱：veading@qq.com进行投诉反馈，一经查实，立即删除！

Mixtral: 专家云集 高质量的稀疏专家组合

推动具有稀疏架构的开放模型的前沿

Mixtral: 专家云集高质量的稀疏专家组合