邢波（Eric Poe Xing）团队开发的 LLM360 让大模型实现真正的透明

2023-12-14 22:15:13

文章目录

一、前言
二、主要内容
三、总结

🍉 CSDN 叶庭云：https://yetingyun.blog.csdn.net/

一、前言

在开源模型领域，开源大语言模型展现出了蓬勃的生命力，不仅数量激增，性能也日益优秀。甚至图灵奖获得者 Yann LeCun 也对此感叹：开源人工智能模型正在超越专有模型的道路上迈进。

专有模型在技术性能和创新能力方面展现出非凡的力量，但其闭源的本质成为大语言模型（LLMs）发展的障碍。一些开源模型虽然为从业者和研究者提供了多样化的选择，但大多数仅公开了最终的模型权重或推理代码，导致越来越多的技术报告局限于顶层设计和表面统计。这种封闭式策略不仅限制了开源模型的发展，还在很大程度上阻碍了整个 LLMs 研究领域的进步。

这表明这些 AI 大模型需要更全面、深入地共享信息，包括训练数据、算法细节、实现挑战以及性能评估的具体细节。

为此，Cerebras、Petuum 和 MBZUAI 等的研究者们共同提出了 LLM360。这是一项全面开源的 LLM 倡议，旨在向社区提供与 LLM 训练相关的一切内容，包括训练代码和数据、模型检查点以及中间结果等。LLM360 的目标是使 LLM 训练过程透明化，使每个人都能够复现，从而推动开放和协作式的人工智能研究的发展。

LLM360: Towards Fully Transparent Open-Source LLMs

论文地址：https://arxiv.org/abs/2312.06550

项目主页：https://www.llm360.ai/

A framework for open-source LLMs to foster transparency, trust, and collaborative research.

博客：https://www.llm360.ai/blog/introducing-llm360-fully-transparent-open-source-llms.html

二、主要内容

研究人员设计了 LLM360 的架构，着重关注其设计原则以及完全开源的理念。他们详细描述了 LLM360 框架的组成部分，包括数据集、代码和配置、模型检查点以及指标等具体细节。LLM360 为当前和未来的开源模型树立了透明度的典范。

在这里插入图片描述

研究者在 LLM360 的开源框架下发布了两个从头开始预训练的大型语言模型：AMBER 和 CRYSTALCODER。AMBER 是基于 1.3T token 进行预训练的 7B 英语语言模型，而 CRYSTALCODER 则是基于 1.4T token 预训练的 7B 英语和代码语言模型。

在本文中，研究者们总结了这两个模型的开发细节、初步评估结果、观察结果以及从中汲取的经验和教训。值得注意的是，在发布时，AMBER 和 CRYSTALCODER 在训练过程中分别保存了 360 个和 143 个模型检查点。

LLM360 的开源理念涵盖了模型权重、训练代码以及创建 LLM 所涉及的微妙细节。这种方法旨在解决 LLMs 领域面临的几个挑战：

数据来源和对训练数据的理解，以减少偏见。
由于不公开完整的训练配置，导致无法重现，同时也阻碍了对报告结果的验证。
由于只发布最终模型权重，导致开放式合作受阻，限制了对新能力或训练数据对 LLM 行为影响的研究。

展望未来，LLM360 承诺发布更大、更强大的模型，同时保持开源原则。该倡议为持续的研究合作和方法发展铺平了道路，旨在解决更好的训练数据混合、过滤技术和优化策略。文章最后承诺了 LLM360 愿景的承诺，即推动 LLMs 预训练领域的复杂性和开放性，同时承认了对负责任使用、风险管理和社区参与的需求。

三、总结

文章要点总结：

所有细节全开源，这种项目就是 🐂🍺

LLM360 是一个全面开源的 LLM 倡议，旨在向社区提供与 LLM 训练相关的一切，包括训练数据、代码和配置、模型检查点以及性能指标等。推动开放和协作式的人工智能研究的发展。

LLM360 的框架包括训练数据集和数据处理代码、训练代码、超参数与配置、模型检查点以及性能指标。透明化 LLM 模型的训练过程，有助于复现和深入研究。

LLM360 发布了两个从头开始预训练的大型语言模型：AMBER 和 CRYSTALCODER。AMBER 是基于1.3T tokens 进行预训练的 7B 英语语言模型，CRYSTALCODER 是基于 1.4T token 预训练的 7B 英语和代码语言模型。

AMBER 和 CRYSTALCODER 在多个基准数据集上评估，结果显示它们在语言任务和代码任务之间取得了很好的平衡，性能相对较强。

LLM360 提供了 ANALYSIS360 项目，用于对模型行为进行多方面分析。研究者对 LLM 中的记忆化进行了初步研究，并发布了所有检查点和数据，以便进行全面分析。

LLM360 的目标是透明化 LLM 的训练过程，使每个人都能复现和深入研究。提供训练数据、代码和配置、模型检查点以及性能指标等信息，促进了开放和协作式的人工智能研究的发展。

AMBER 和 CRYSTALCODER 是 LLM360 倡议的两个开源模型，它们在预训练过程中保存了大量的模型检查点，并在多个基准数据集上展现了良好的性能，推动了 LLMs 研究的进步。

📚? 参考链接：

文章来源:https://blog.csdn.net/fyfugoyfa/article/details/135003009
本文来自互联网用户投稿，该文观点仅代表作者本人，不代表本站立场。本站仅提供信息存储空间服务，不拥有所有权，不承担相关法律责任。如若内容造成侵权/违法违规/事实不符，请联系我的编程经验分享网邮箱：veading@qq.com进行投诉反馈，一经查实，立即删除！