司空学社开源首个中文建筑行业大模型 | 司空:基于中文建筑行业知识的LLaMA和Alpaca微

导读
大型语言模型(LLM)的强悍性能已经在不同的领域中展现了出来,并已经可以实际应用中展现其强大的能力。司空学社团队训练并开源了一个新的大模型 ——司空SiKong,也是国内第一个基于中文建筑行业知识的大模型!

建筑领域的信息资源极其庞大且跨越学科广泛,由于建筑行业的专业术语较多,各种建筑相关定义多数散落于建筑相关规范中。现有的LLaMA和Alpaca模型,因缺乏中文建筑专业语料,因此在建筑领域,目前市面上的语言模型并不具备专业建筑人士对相关问题回答的信息判断和语言整合能力。尽管其能生成内容充分、语句连贯、经过一定信息筛选的回答,但通常的回答都缺乏相应的准确性,对信息的来源没有清晰的回答,没有形成有条理回答方式,而现实的工作环境中对大模型的回答通常都具有上述要求,因此使得实际应用中现有的大语言模型处理具体情况的能力有限,司空SiKong大模型便是基于此需求打造的。
建筑行业信息特点
对于基于中文建筑行业知识的大型语言模型,成功的搭建不仅取决于模型架构的能力,而且同样依赖于大量有效且准确的训练数据。各种来源的建筑行业数据,具有独特的特点。
建筑规范类:国内建筑行业相关规范众多,建筑规范本身具有时效性特点,需采用最新版建筑规范资料。且相同对象的规范在不同标准中有差异,在国家标准与地方标准中也有不同,需全面采集准确资料。
名词定义类:部分建筑专业名词因南北方差异以及时代差异具有多个名称,具体解释存在差异,需对采集数据进行充分处理。
工程做法类:相关工程做法相关信息,也具有时效性特点,需采用最新建筑工程做法,且同一构造等做法多样,要求信息全面。
司空SiKong大模型介绍
为解决现有使用需求,推动行业智能化发展,司空学社团队利用指令微调和强化学习在 LLaMA和Alpaca大模型的基础上,训练并开源了第一个基于中文建筑行业知识大模型 ——司空SiKong。司空SiKong 致力于通过学习文建筑行业知识数据,以使语言模型具备像专业建筑师一样的信息判断能力和信息整合的能力,同时保持对用户流畅的交互和内容的便捷性,使回答简洁准确且具有条理。
模型构成简介
本项目开源了经过中文建筑学指令精调/指令微调(Instruct-tuning)的LLaMA-7B和Alpaca-7B模型。我们通过采集建筑行业基础资料,构建建筑行业数据集,对LLaMA和Alpaca进行了指令微调,提高了司空SiKong 在中文建筑领域的问答效果。
优化调整
司空SiKong 基于LLaMA原生的LLaMA-7B 和 Alpaca-7B基础上进行研发,在模型架构、算法以及中文语汇等方面做了一系列优化,主要体现在四方面:
1. 底层采用了微软开源的DeepSpeed框架,能够在深度学习阶段具有GPU的分布式训练和优化能力,大大提升了LLM大语言模型的训练速度;此外,在训练阶段还采用了开源LMFlow框架,通过中文语料和本地知识库的构建,进行建筑垂直领域的大模型微调;
2. 如前所述,司空SiKong 通过采用RAFT(Reward rAnked Fine-Tuning)对齐算法能够取得更好的对齐效果,即将模型的输出结果与期望的目标结果进行更好的匹配对齐,从而使得司空SiKong模型的回答更加准确、有针对性,并避免无关联回答的问题;
4. 在建筑领域的数据集构建方面,基于建筑领域专家的参与和中国国家标准文件作为数据来源,司空SiKong能够更好地适应中文建筑领域的语言属性。通过专家构建的本地知识库与扩展中文语料,模型可以更好地学习和理解与建筑相关的术语、概念和规范,并提供具有建筑领域专业性和准确性的回答。
回答对比
我们在发布前做了相当大量的测试为了对比司空SiKong 和现有的基础语言模型的性能差异,我们进行了与现有的三个基础模型进行问答比较,测试结果可以说司空SiKong 在总体性能上表现显著优秀。例:
测试输入:
图书馆中书架之间以及书架与墙体之间通道的最小宽度是多少?
Llama输出:
1.5m
Alpaca输出:
书架之间通道的最小宽度是0.5厘米,书架与墙体之间通道的最小宽度是0.5厘米。
ChatGLM输出:
图书馆中书架之间以及书架与墙体之间通道的最小宽度取决于不同国家和地区的法规和规定。一般来说,图书馆的书架通道应该保证书籍的流通和检索,因此最小宽度应该能够容纳一个人的步行距离。
SiKong司空输出:
按照《图书馆建筑设计规范》(JGJ 38-2015)中规定,图书馆中书架之间以及书架与墙体之间通道的最小宽度按通道类型划分为以下几种情况:
主通道中,开架的常用书架间隔不小于1.5m,闭架的常用书架间隔不小于1.2m,不常用书架间隔不小于1m;
次通道中,开架的常用书架间隔不小于1.1m,闭架的常用书架间隔不小于0.75m,不常用书架间隔不小于0.6m;
档头走道(即靠墙走道)中,开架的常用书架间隔不小于0.7m,闭架的常用书架间隔不小于0.6m,不常用书架间隔不小于0.6m;
行道中,开架的常用书架间隔不小于1m,闭架的常用书架间隔不小于0.75m,不常用书架间隔不小于0.6m。

应用范围
通过结合以上这些开源的大模型构建方式,司空SiKong 提供了一个全面可用的基于中文建筑行业知识的大模型,利用人工智能在建筑领域的研究、创新和实际应用。它可以应用在以下方面:
1.建筑辅助设计——大模型对建筑设计原理等相关学习,可对提交的建筑周边环境进行分析,得出最优解释。
2.建筑审图指导——对符合数据交换标准的图纸进行审核,得出审查意见。
3.建筑综合评分——大模型的优势即是可融合各专业相关标准,对建筑可做到实时调整,实时评分。
4.建筑初步教育——建筑教育将打破传统教育模式,各科目之间做到交叉融合式学习路径。
5.建筑环境模拟——通过图像识别技术对实际建筑环境的瞬时记录或周期记录进行分析评估,对单体图元进行识别重建,最终达到环境模拟预测。
6.建筑全生命周期预测——可对接各项信息源(市政,交通,气象等),对相关建筑案例进行数据筛选整合,构建相关垂直模型,对项目进行全周期预测。
开源司空
司空学社的形象是一只羊驼,是的,就是那个2013年被CNN评选的世界最可爱物种排行榜上排名第七,中国网民喜闻乐见的十大神兽之一,那是中国互联网时代的开端和标志,它代表了当时网络信息活动全新的创造和传播方式。ChatGPT的发展模式已经证明其颠覆了传统,我们也正积极地向新领域迈进,司空学社以及司空SiKong 大模型的创立代表了司空学社在信息时代的开创和进取精神。而更重要的是,像羊驼一样,我们是聪明,高度群居的动物,设计大师、土木老哥、结构大佬,古建专家……我们是专业团队!

形象介绍

这是一只建筑羊驼,艺术气息的建筑师标志黑框眼镜之下,清澈智慧的双眼充满对建筑设计的热爱。背上的背包中永远塞满了设计图纸和行业规范,那是使梦想照进现实的桥梁。

这是一只技术羊驼,靠谱的IT大佬格子衫,随身的高科技电子产品,左手AI技术,右手量子计算,技术宅将又一次拯救世界,为建筑行业递来核心科技,走向未来。

这是一只土木羊驼,结构,暖通,风水,电气,不再使各方互相折磨到白头,高科技打灰的日子里,他将继续用坚实的双手,丰富的经验,托起走向未来的新建筑。

这是一只古建羊驼,木欣欣以向荣,泉涓涓而始流,中国人对空间的理解也许还藏在层楼叠榭的殿堂,叠山理水的园林,老先生把最细腻的描摹深藏在写意的外表之下,雕梁画栋只不过是递与我们的开胃小菜而已。
司空学社对于此开源项目有自己的坚持:
作为建筑相关行业从业人员,建筑行业正在积极顺应当今高速发展的信息化社会,我们想要以高水准的文建筑行业知识大模型,贡献于行业的创新。给行业一个可用的、实用的中文语汇的大模型,一个能让更多人能够快速训练的专业大模型。大语言模型高速迭代,行业需求紧迫的行业态势下,我们坚持开源就是最好的方式。
研发团队
本项目由司空学社的刘钧文、梁超、王屹卓、孙艺玮、董广龙、李英汉、贾一丁、王浩程、侯占民、何伊雯、武晋、李婧豪和马英教授等完成。
致谢
感谢王非先生对本项目的资金支持。
本项目使用了LMFlow 与 Chinese-LLaMA-Alpaca 仓库,在此致谢!
合作单位

相关链接
Gitee:https://gitee.com/sikongsphere/sikong
Github:https://github.com/SikongSphere/sikong
技术交流群:

