LLM360：开放透明的开源大模型

2023-12-13 16:05 作者:ReadPaper论文阅读 0人读过 | 我要投稿

LLM360计划是为了促进大型语言模型（LLM）的开放性和透明度而启动的。这个计划的核心是公开发布LLM训练过程中的所有细节，包括中间检查点、训练数据及其映射、所有收集的指标以及所有相关的源代码。这样的做法旨在帮助研究人员和从业者更深入地理解LLM的构建过程，进而促进小规模实验室的研究和人工智能研究的可重现性。LLM360下已经发布了两个模型：Amber-7B和CrystalCoder-7B，这两个模型代表了该计划的宗旨，即开源和透明的人工智能发展。

论文：https://www.llm360.ai/paper.pdf

Readpaper：https://readpaper.com/paper/4832155159119265793

主页：https://www.llm360.ai/index.html

项目介绍

LLM360希望通过创建一个框架，来促进大型语言模型（LLM）的开放性和研究合作。该框架包括四个主要组成部分：频繁的中间模型检查点、完整数据序列的训练数据、源代码、以及训练过程中收集的日志和指标。这些组件的公开旨在提供更全面的LLM研究资源，以支持研究社区的深入分析和协作。LLM360在后续增加更多细节，并鼓励社区反馈，以优化其发布的内容。目前开源了两个模型Amber （英文LLM）和 CrystalCoder（代码LLM）。

Amber：推动LLM预训练领域的知识与透明度

Amber是一个大型语言模型（LLM），它基于1.2万亿token进行训练，性能与LLaMA-7B和OpenLLaMA-v2-7B相似，但优于Pythia-6.7B。Amber的核心特点在于促进了训练团队与广泛社区之间的知识交流。除了最终模型权重，Amber还提供了359个额外的模型检查点和每个检查点对应的数据序列。

CrystalCoder：沟通人类语言与机器代码

CrystalCoder是一个平衡了编程和语言处理能力的7B级别语言模型，通过在预训练过程中融合文本和代码数据来实现双重优势。与传统的代码LLM相比，CrystalCoder更早地引入代码数据，且特别强调了Python和Web编程语言的训练，使其成为一个高效的编程助手。实验结果显示，CrystalCoder在少量训练token的情况下，仍然在LLaMA 2和Code LLaMA之间保持平衡。这个模型在语言处理和编码能力上的表现，为研究AI代理和工具使用能力提供了有价值的参考。此外，发布了143个检查点和预训练数据，这提高了模型的可访问性和透明度。

项目目标

LLM360框架的主要目标包括提高大型语言模型（LLM）研究的可访问性、促进研究进步与可重复性，并承担环境责任。对于没有或只有少量GPU资源的研究者，LLM360提供了查看和利用中间训练结果的可能性，使他们能够进行深入研究而无需从零开始。此外，框架通过提供完整的、可复制的资源，支持研究的复制和结果的验证，从而增强了研究环境的可靠性和透明度。

观点

全流程的开源模型才是完整意义上的开源。

学术上，完整开源的模型提供了一个独特的资源库，使研究人员能够更深入地研究和理解大型语言模型的工作机制。也可以更好的研究每一部分的机制，尽可能的做到不黑箱。

商业上，这种透明和开放的做法可以促进企业之间的交流和合作。甚至衍生出新的范式。

特邀作者：日本早稻田大学计算机系博士王军杰

标签：

LLM360：开放透明的开源大模型

项目介绍

Amber：推动LLM预训练领域的知识与透明度

CrystalCoder：沟通人类语言与机器代码

项目目标

观点