LLM360:开放透明的开源大模型
LLM360计划是为了促进大型语言模型(LLM)的开放性和透明度而启动的。这个计划的核心是公开发布LLM训练过程中的所有细节,包括中间检查点、训练数据及其映射、所有收集的指标以及所有相关的源代码。这样的做法旨在帮助研究人员和从业者更深入地理解LLM的构建过程,进而促进小规模实验室的研究和人工智能研究的可重现性。LLM360下已经发布了两个模型:Amber-7B和CrystalCoder-7B,这两个模型代表了该计划的宗旨,即开源和透明的人工智能发展。

论文:https://www.llm360.ai/paper.pdf
Readpaper:https://readpaper.com/paper/4832155159119265793
主页:https://www.llm360.ai/index.html
项目介绍
LLM360希望通过创建一个框架,来促进大型语言模型(LLM)的开放性和研究合作。该框架包括四个主要组成部分:频繁的中间模型检查点、完整数据序列的训练数据、源代码、以及训练过程中收集的日志和指标。这些组件的公开旨在提供更全面的LLM研究资源,以支持研究社区的深入分析和协作。LLM360在后续增加更多细节,并鼓励社区反馈,以优化其发布的内容。目前开源了两个模型Amber (英文LLM)和 CrystalCoder(代码LLM)。

Amber:推动LLM预训练领域的知识与透明度
Amber是一个大型语言模型(LLM),它基于1.2万亿token进行训练,性能与LLaMA-7B和OpenLLaMA-v2-7B相似,但优于Pythia-6.7B。Amber的核心特点在于促进了训练团队与广泛社区之间的知识交流。除了最终模型权重,Amber还提供了359个额外的模型检查点和每个检查点对应的数据序列。

CrystalCoder:沟通人类语言与机器代码
CrystalCoder是一个平衡了编程和语言处理能力的7B级别语言模型,通过在预训练过程中融合文本和代码数据来实现双重优势。与传统的代码LLM相比,CrystalCoder更早地引入代码数据,且特别强调了Python和Web编程语言的训练,使其成为一个高效的编程助手。实验结果显示,CrystalCoder在少量训练token的情况下,仍然在LLaMA 2和Code LLaMA之间保持平衡。这个模型在语言处理和编码能力上的表现,为研究AI代理和工具使用能力提供了有价值的参考。此外,发布了143个检查点和预训练数据,这提高了模型的可访问性和透明度。


项目目标
LLM360框架的主要目标包括提高大型语言模型(LLM)研究的可访问性、促进研究进步与可重复性,并承担环境责任。对于没有或只有少量GPU资源的研究者,LLM360提供了查看和利用中间训练结果的可能性,使他们能够进行深入研究而无需从零开始。此外,框架通过提供完整的、可复制的资源,支持研究的复制和结果的验证,从而增强了研究环境的可靠性和透明度。
观点
全流程的开源模型才是完整意义上的开源。
学术上,完整开源的模型提供了一个独特的资源库,使研究人员能够更深入地研究和理解大型语言模型的工作机制。也可以更好的研究每一部分的机制,尽可能的做到不黑箱。
商业上,这种透明和开放的做法可以促进企业之间的交流和合作。甚至衍生出新的范式。

特邀作者:日本早稻田大学计算机系博士 王军杰