StableCode代码生成LLM开源(含基础、指令、16k上下文模型版本)



本周带来的 8 个模型项目分别用于代码生成、中文对话、多语言对话、儿童情感对话、语义表征、姿势估计等;2 个工具项目用于LLM训练、API调用。
Stability开源代码生成模型StableCode,包含基础、指令和支持16K上下文三种模型版本,支持多种编程语言
Stability 开源 StableCode,涵盖通用基础模型、指令模型,支持 16K 上下文的模型。基础模型在来自 BigCode 的 stack-dataset(v1.2)中进行了多种编程语言的训练,进一步使用 Python、Go、Java、JavaScript、C、Markdown 和 C++等流行语言进行了训练。总计,在高性能计算集群上使用了 560B 个代码标记进行了模型训练。在建立基础模型后,针对特定用例对指令模型进行调优,以解决复杂的编程任务。其中 16K 版本具有更大的上下文窗口,可实现同时查看或编辑多个中等大小的 Python 文件。
获取资源:
https://sota.jiqizhixin.com/project/stablecode

虎博开源Tigerbot-13B,基于llama2继续训练提升中文能力,涵盖基础和对话模型
近日,虎博开源 TigerBot-13B 大模型,基于 Llama-2 继续训练,不但保持了 Llama-2 出色的英文能力,同时具有中文能力。本次开源包括基础模型 TigerBot-13B-base 和对话模型 TigerBot-13B-chat。基础模型基于 Llama-2-13B 继续预训练 300B tokens,扩充了中文词表到 60K vocabulary, 并采用 holistic training 在预训练中直接使模型具有 9 成的指令完成能力。对话模型基于 TigerBot-13B-base 用 5M 指令数据微调,并采用 rejection sampling fine-tune 对齐人类需求。
获取资源:
https://sota.jiqizhixin.com/project/tigerbot

元象开源XVERSE-13B,支持40多种语言、8K上下文长度
XVERSE-13B 基于标准 Transformer 架构,支持 8K 上下文长度。可满足更多轮对话,同时减少遗忘现象,以及输入更多内容完成复杂任务。训练数据上,构建了 1.4 万亿 tokens 的数据集,包含中、英、俄、西等 40 多种语言。在分词策略上,基于 BPE 算法,使用上百 GB 语料训练了一个词表大小为 100,278 的分词器。此外,还在训练框架上进行了算子、通信、并行策略及调度等方面的优化,使得千卡集群上的峰值算力利用率达到 58.5%。
获取资源:
https://sota.jiqizhixin.com/project/xverse-13b

百川发布53B大模型,融入搜索能力,大幅提升知识问答、文本创作能力
近日百川发布 Baichuan-53B 大模型,融合了意图理解、信息检索以及强化学习技术,结合有监督微调与人类意图对齐,在知识问答、文本创作领域表现突出。百川大模型的搜索增强系统融合了多个模块,包括指令意图理解、智能搜索和结果增强等组件。该体系通过深入理解用户指令,精确驱动查询词的搜索,并结合大语言模型技术来优化模型结果生成的可靠性。通过这一系列协同作用,大模型实现了更精确、智能的模型结果回答,通过这种方式减少了模型的幻觉。当前 53B 模型可通过内测申请试用,未来 1 个月还将开放 API。
获取资源:
https://sota.jiqizhixin.com/project/baichuan-53b

哈工大SCIR实验室开源7B儿童情感陪伴对话大模型巧板
哈工大 SCIR 实验室开源 7B 儿童情感陪伴对话大模型,适用于儿童情感陪伴场景,主要面向 K12 中小学生及家长群体。巧板使用通用域人机对话、单轮指令数据以及儿童情感陪伴对话数据进行指令微调。在数据构建过程中,该团队从真实场景的儿童对话话题列表中进行采样,选定当前对话话题,在儿童情绪辅导理论的指导下,构建了 1k 余段高质量中文儿童情感陪伴对话数据。此外,通过话题采样选定当前对话话题,结合儿童情绪辅导理论指导下的 prompt,共同组成 chatgpt_prompt,从 gpt-3.5-turbo 中获取 5 千段儿童情感陪伴对话数据。
获取资源:
https://sota.jiqizhixin.com/project/qiaoban

智源开源可商用中英文语义向量模型BGE,语义表征超同类模型、使用成本更低
智源开源可商用中英文语义向量模型 BGE,中英文语义检索精度与整体语义表征能力超过同类模型,如 OpenAI 的 text embedding 002 等。BGE 在保持了同等参数量级模型中的最小向量维度,使用成本更低。BGE 出色的语义表征能力源于高效预训练并使用大规模文本对微调。具体地,BGE 在悟道、Pile 两个大规模语料集上采取了针对表征的预训练算法 RetroMAE,并针对中文、英文分别构建了多达 120M、232M 的样本对数据。另外,通过借鉴 Instruction Tuning 的思想,采取了非对称的指令添加方式,在问题端添加场景描述, 提升了语义向量在多任务场景下的通用能力。
获取资源:
https://sota.jiqizhixin.com/project/bge

清华等发布通用工具使用框架ToolLLM,以增强大语言模型对API的使用能力
ToolLLM 是由清华、耶鲁、人大、腾讯和知乎等多家机构联合推出的通用工具使用框架ToolLLM,以增强大语言模型对 API 的使用能力。该框架与 OpenBMB 大模型工具体系"全家桶"相结合,包括数据构建、模型训练和评估多项功能。数据方面使用 ChatGPT 自动构建指令调优的数据集 ToolBench,涵盖了 16k+真实世界的 API 和各种实际的用例场景,包括单一工具和多工具任务。此外,在 ToolBench 上对 LLaMA 进行微调,得到的 ToolLLaMA 与 ChatGPT 性能相当。
获取资源:
https://sota.jiqizhixin.com/project/toolllm

大模型高效训练方法Relora,采用低秩更新的方式来训练高秩网络
ReLoRA 是新提出的低秩训练方法,用于训练大规模神经网络。ReLoRA 采用低秩更新的方式来训练高秩网络,应用于预训练具有高达 350M 参数的 Transformer 语言模型中,可取得与常规神经网络训练相当的性能。此外,ReLoRA 的效率随着模型大小的增加而提高,有望成为高效训练数十亿参数网络的新方法。
获取资源:
https://sota.jiqizhixin.com/project/relora

KAUST等提出两阶段3D生成框架Magic123,基于单张图像生成高质量3D物体
Magic123 是一个两阶段的从粗到细的 3D 生成框架,由 KAUST、牛津大学等共同提出。Magic123 同时使用 2D 和 3D 视觉先验来从单张图像进行三维重建,让模型在重建想象力和三维一致性之间达到平衡,泛化性能更好。在二阶段训练过程中,第一阶段通过优化 NeRF 网络来产生一个粗略的几何形状,并在第二阶段再将其不断细化为纹理丰富的高分辨率三维网格。实验表明,Magic123 在从单张图像生成高质量 3D 物体方面取得了显著改进。
获取资源:
https://sota.jiqizhixin.com/project/magic123

Idea研究院发布两阶段蒸馏人体全身姿势估计模型DWPose
Idea 研究院发布两阶段蒸馏人体全身姿势估计模型 DWPose,旨在提升效果和效率。它通过两个阶段的姿势蒸馏策略实现优化。研究团队利用 UBody 数据集进行实验,该数据集包含多样的面部表情和手势,展示了 DWPose 的优越性能。在 COCO-WholeBody 数据集上,DWPose 实现了新的最优性能,将全身姿势平均精度 AP 从 64.8%提升至 66.5%。此外,DWPose 还提供了多种规模的模型,可满足不同下游任务的需求。
获取资源:
https://sota.jiqizhixin.com/project/dwpose


网页端访问: 在浏览器地址栏输入新版站点地址 sota.jiqizhixin.com ,即可前往「SOTA!模型」平台,查看关注的模型是否有新资源收录。
移动端访问:在微信移动端中搜索服务号名称「机器之心SOTA模型」或 ID 「sotaai」,关注 SOTA!模型服务号,即可通过服务号底部菜单栏使用平台功能,更有最新AI技术、开发资源及社区动态定期推送。


