OpenBMB：让大模型飞入千家万户

2022-10-20 17:47 作者:OpenBMB 0人读过 | 我要投稿

近年来，随着预训练语言模型技术引发人工智能领域性能革命，大规模预训练模型技术的成熟标志着 “大模型时代” 的到来。然而在大模型的具体应用与落地中，却存在着 “训练难、微调难、应用难” 三大挑战。为此，我们发起了 OpenBMB 开源社区，旨在 打造大规模预训练语言模型库与相关工具，加速百亿级以上大模型的训练、微调与推理，降低大模型使用门槛，实现大模型的 标准化、普及化和实用化，让大模型飞入千家万户。

OpenBMB 所有项目已在 GitHub 收获了 3k+ star，为国内开发者提供了良好的服务体验，吸引了大批感兴趣的开发者参与其中，总共有超过 1500 名感兴趣人员加入了 OpenBMB 开源社区各大交流群。

从大数据到大模型

近年来人工智能和深度学习技术飞速发展，极大改变了我们的日常工作与生活。伴随人类社会信息化产生海量数据，人工智能技术能够有效学习数据的分布与特征，对数据进行深入分析并完成复杂智能任务，产生巨大的经济与社会价值，人类社会步入了 “大数据时代”。

当前人工智能算法的典型流程为：准备数据、训练模型和部署模型。其挑战在于，针对给定任务人工标注训练数据费时费力，数据规模往往有限，需要承担算法性能不达标、模型泛化能力差等诸多风险，导致人工智能面临研发周期长、风险大、投入成本高的困局，阻碍了人工智能算法的落地与推广。

2018 年预训练语言模型技术横空出世，形成了 “预训练-微调” 的新研发范式，极大地改变了上述困局。在这个新范式下，我们可以非常容易地搜集大规模 无标注 语料，采用自监督学习技术 预训练 语言模型；然后可以利用特定下游任务对应的训练数据，进一步微调更新模型参数，让该模型掌握完成下游任务的能力。大量研究结果证明，预训练语言模型能够在自然语言处理等领域的广大下游任务上取得巨大的性能提升，并快速成长为人工智能生态中的基础设施。

通过充分利用互联网上近乎无穷的海量数据，预训练模型正在引发一场人工智能的性能革命。研究表明，更大的参数规模为模型性能带来质的飞跃。对十亿、百亿乃至千亿级超大模型的探索成为业界的热门话题，引发国内外著名互联网企业和研究机构的激烈竞争，将模型规模和性能不断推向新的高度。除 Google、OpenAI 等国外知名机构外，近年来国内相关研究机构与公司也异军突起，形成了大模型的研究与应用热潮。围绕大模型展开的"军备竞赛"日益白热化，成为对海量数据、并行计算、模型学习和任务适配能力的全方位考验，人工智能进入 “大模型时代”。

然而在“大模型时代”，因为大模型巨大的参数量和算力需求，在大范围内应用大模型仍然存在着较大的挑战。如何让更多开发者方便享用大模型，如何让更多企业广泛应用大模型，让大模型不再“大”不可及，是实现大模型可持续发展的关键。与普通规模的深度学习模型相比，大模型训练与应用需要重点突破三大挑战：

▶ 训练难：训练数据量大，算力成本高。

▶ 微调难：微调参数量大，微调时间长。

▶ 应用难：推理速度慢，响应时间长，难以满足线上业务需求。

为了让大模型技术更好地普及应用，针对这些挑战，我们成立了OpenBMB开源社区。

OpenBMB让大模型飞入千家万户

OpenBMB全称为Open Lab for Big Model Base，旨在打造大规模预训练语言模型库与相关工具，加速百亿级以上大模型的训练、微调与推理，降低大模型使用门槛，与国内外开发者共同努力形成大模型开源社区，推动大模型生态发展，实现大模型的标准化、普及化和实用化，让大模型飞入千家万户。

OpenBMB能力体系

谋定而动，OpenBMB将从 数据、工具、模型、协议 四个层面构建 应用便捷、能力全面、使用规范 的大规模预训练模型库。

▶ 数据层

构建大规模数据 自动收集、自动清洗、高效存储 模块与相关工具，为大模型训练提供数据支持。

▶ 工具层

聚焦 模型训练、模型微调、模型推理、模型应用 四个大模型主要场景，推出配套开源工具包，提升各环节效率，降低计算和人力成本。

▶ 模型层

构建 OpenBMB 工具支持的开源大模型库，包括 BERT、GPT、T5 等通用大模型和 CPM、EVA、GLM 等悟道开源大模型，并不断完善添加新模型，形成覆盖全面的模型能力。

▶ 协议层

发布 通用模型许可协议，规范与保护大模型发布使用过程中发布者与使用者权利与义务，目前协议初稿已经开源（https://www.openbmb.org/license）。

大模型相关工具在OpenBMB能力体系中发挥着核心作用。OpenBMB 将努力建设 大模型开源社区，团结广大开发者不断完善大模型从训练、微调、推理到应用的全流程配套工具。基于发起人团队前期工作，OpenBMB 设计了大模型全流程研发框架，并初步开发了相关工具，这些工具各司其职、相互协作，共同实现大模型从训练、微调到推理的全流程高效计算。

OpenBMB工具

▶ 模型训练套件

BMData：大模型“原料”收集器BMData进行高质量数据清洗、处理与存储，为大模型训练提供全面、综合的数据支持。

BMTrain：大模型训练“发动机”BMTrain进行高效的大模型预训练与微调。与DeepSpeed等框架相比，BMTrain训练模型成本可节省90%。

BMCook：大模型“瘦身”工具库BMCook进行大模型高效压缩，提升运行效率。通过量化、剪枝、蒸馏、专家化等算法组合，可保持原模型90%+效果，模型推理加速10倍。 ▶ 模型微调套件

OpenPrompt：大模型提示学习利器OpenPrompt提供统一接口的提示学习模版语言，2021年发布以来在GitHub获得1.3k星标，每周访问量10K+。

OpenDelta：“小”参数撬动“大”模型OpenDelta进行参数高效的大模型微调，仅更新极少参数（小于5%）即可达到全参数微调的效果。

Delta Center：“人人为我，我为人人” - Delta Object分享中心Delta Center提供Delta Object的上传、分享、检索、下载功能，鼓励社区开发者共享大模型能力。

▶ 模型推理套件

BMInf：千元级显卡玩转大模型推理BMInf实现大模型低成本高效推理计算，使用单块千元级显卡（GTX 1060）即可进行百亿参数大模型推理。2021年发布以来在GitHub获得200+星标。

BMInf、OpenPrompt、OpenDelta 已于前期发布，并得到了开源社区用户的广泛关注与应用。接下来，OpenBMB将发布 大模型训练 / 微调加速工具包 BMTrain、大模型后处理工具包 BMCook、大模型 Model Center，进一步完善大模型高效计算的工具链。未来，OpenBMB将依托开源社区力量，与广大开发者一道共同打磨和完善大模型相关工具，助力大模型应用与落地。期待广大开发者关注和贡献 OpenBMB！

发起团队｜介绍

OpenBMB开源社区由 清华大学自然语言处理实验室和智源研究院语言大模型加速技术创新中心 共同支持发起。

发起团队拥有深厚的自然语言处理和预训练模型研究基础，曾最早提出知识指导的预训练模型 ERNIE 并发表在 自然语言处理顶级国际会议 ACL 2019 上，累计被引 超过 600 次，被学术界公认为融合知识的预训练语言模型的代表方法，被美国国家医学院院士团队用于研制医学诊断领域的自动问答系统；团队依托智源研究院研发的 “悟道·文源”中文大规模预训练语言模型 CPM-1、CPM-2，参数量最高达到 1980 亿，在众多下游任务中取得优异性能；团队近年来围绕模型预训练、提示学习、模型压缩技术等方面在顶级国际会议上发表了数十篇高水平论文，2022年面向生物医学的预训练模型KV-PLM发表在著名综合类期刊 Nature Communications 上，并入选该刊亮点推荐文章，相关论文列表详见文末；团队还有丰富的自然语言处理技术的开源经验，发布了 OpenKE、OpenNRE、OpenNE 等一系列有世界影响力的工具包，在GitHub上累计获得超过 5.8 万星标，位列 全球机构第 148 位，曾获 教育部自然科学一等奖、中国中文信息学会钱伟长中文信息处理科学技术奖一等奖 等成果奖励。发起团队面向OpenBMB开源社区研制发布的 BMInf、OpenPrompt 等工具包已陆续发表在自然语言处理顶级国际会议 ACL 2022 上。

结语

无论你正在从事大模型研究，研发大模型应用，还是对大模型技术充满兴趣，欢迎使用OpenBMB开源工具和模型库，你的每一份意见和建议，都为我们指明前进的方向。

在OpenBMB开源社区，我们 推崇简洁，追求极致，相信数据与模型的力量。欢迎志同道合的你加入，共同为大模型应用落地添砖加瓦，早日 让大模型飞入千家万户！

关注我们

微信搜索关注 “OpenBMB开源社区”

获取更多大模型干货知识和前沿资讯！

🚪传送门｜相关链接

🔗 官方网站：https://www.openbmb.org

🔗 GitHub：https://github.com/OpenBMB

🔗 交流QQ群：735930538

🔗 启智社区：https://git.openi.org.cn/OpenBMB

🔗 微博：http://weibo.cn/OpenBMB

🔗 知乎：https://www.zhihu.com/people/OpenBMB

🔗 Twitter：https://twitter.com/OpenBMB

标签：