哈工大汉化版Llama2开源;交通TransGPT、天文StarGLM、科技Mozi等多个专用LLM开源



本周带来的 9 个模型项目分别用于中文对话、中英双语、语音文本、交通预测、天文常识、科技问答等;3 个工具项目用于LLM开发部署、应用构建。
哈工大科大讯飞联合推出中文LLaMA-2 & Alpaca-2大语言模型,基于Llama-2扩充中文词表并用增量预训练
中文 LLaMA&Alpaca 是哈工大等基于 Llama-2 开发的第二期模型项目。该项目开源了中文 LLaMA-2 基座模型和 Alpaca-2 指令微调大模型。这些模型在原版 Llama-2 的基础上扩充并优化了中文词表,使用了大规模中文数据进行增量预训练,进一步提升了中文基础语义和指令理解能力。项目开源了预训练、指令微调脚本,并支持在个人电脑的 CPU/GPU 上快速进行大模型量化和部署体验。同时,该项目还与 LLaMA 生态中的工具(如 transformers、llama.cpp、text-generation-webui、LangChain、vLLM 等)兼容。
获取资源:
https://sota.jiqizhixin.com/project/chinese-llama-alpaca-2

Llama2-Chinese开源,基于大规模高质量中文语料预训练提升中文能力,含7B和13B对话模型
Llama2 的预训练数据中,中文预训练数据仅占 0.13%,导致原版 Llama2 在中文方面表现较弱。为对模型底层进行中文能力的优化,Llama2-Chinese 采用了大规模中文语料进行预训练。当前项目开源 Llama2-Chinese-7b-Chat 和 13B-Chat 两个版本,其中 Llama2-Chinese-13B 模型的预训练数据包含了 200B 个 token,来源包括互联网上公开的网络数据、经过去重处理的高质量中文数据(如百科、书籍、博客等)、中文 Wikipedia、中文悟道开源的 200G 数据以及 Clue 开放的中文预训练数据等。Llama2-Chinese 在通用知识、语言理解等中文能力方面得到了显著提升。
获取资源:
https://sota.jiqizhixin.com/project/llama2-chinese

阿里云开源支持商用的通义千问7B模型,采用超2.2万亿高质量数据集训练
近日,阿里云开源通义千问 7B(Qwen-7B),包含基础模型 Qwen-7B 和 对话模型 Qwen-7B-Chat,并允许商业使用。Qwen-7B 是基于 Transformer 的大型语言模型,在自建的超过 2.2 万亿标记的大规模高质量数据集上进行预训练,该数据集包括纯文本和代码,涵盖了广泛的领域,包括通用领域数据和专业领域数据。此外,基于预训练的 Qwen-7B 并经过了对齐技术的训练得到 Qwen-7B-Chat。Qwen-7B 和 Qwen-7B-Chat 都支持 8K 长度的上下文,允许输入较长的上下文。
获取资源:
https://sota.jiqizhixin.com/project/qwen-7b

开源可商用交通大模型TransGPT,可实现交通情况预测、智能咨询助手等智能交通解决方案
TransGPT 是国内首款开源交通大模型,它能够实现交通情况预测、智能咨询助手、公共交通服务、交通规划设计、交通安全教育、协助管理、交通事故报告和分析、自动驾驶辅助系统等功能。TransGPT 作为一个通用常识交通大模型,可以为道路工程、桥梁工程、隧道工程、公路运输、水路运输、城市公共交通运输、交通运输经济、交通运输安全等行业提供通识常识。以此为基础,可以落脚到特定的交通应用场景中。当前项目开源 TransGPT-7B 模型,以及约 34.6 万条文本数据用于领域内预训练、约 5.8 万条对话数据用于微调。
获取资源:
https://sota.jiqizhixin.com/project/transgpt

LinkSoul.AI 开源支持中英文双语视觉到文本的多模态模型Chinese-LLaVA
Chinese-LLaVA 是 LinkSoul.AI 开源的可商用多模态模型,支持图像到文本多模态对话。它基于 LLaVA 框架并在 Chinese-Llama2 的基础上进行了中文自适应,提供了对中英文双语的处理能力。该项目开源 Chinese-LLaVA-Chinese-Llama-2-7B、Chinese-LLaVA-Baichuan-7B 模型,并提供中英文视觉 SFT 数据集 Chinese-LLaVA-Vision-Instructions 供开发者用于中英文视觉-文本对话方面的开发。
获取资源:
https://sota.jiqizhixin.com/project/chinese-llava

LinkSoul.AI 开源可商用支持中英双语、语音到文本的多模态开源对话模型LLaSM
LinkSoul.AI 开源可商用的语音到文本多模态开源对话模型 LLaSM 以及中英文语音 SFT 数据集 LLaSM-Audio-Instructions。LLaSM 是支持中英文语音文本多模态对话的开源可商用对话模型,可供开发者免费下载、进行商用。相较以往的传统方案,LLaSM 能够通过便捷的语音输入的交互方式,大幅改善过往以文本为输入的大模型的使用体验,同时有效避免基于 ASR 解决方案的繁琐流程以及可能引入的错误。
获取资源:
https://sota.jiqizhixin.com/project/llasm

天文大语言模型StarGLM开源,通过整合司天工程相关的语料数据与知识库资料进行训练
为缓解大语言模型在部分天文通用知识和前沿变星领域的幻觉现象,同时探索了多模态模型在天文图像生成与识别上应用的可能性。天文大语言模型 StarGLM 开源,通过整合司天工程相关的语料数据与知识库资料训练得到。它经历了多个阶段的数据筛选,包括使用 ChatGPT-Corpus、Belle 项目、Firefly+Instinwild 项目和 GPT-4-LLM 项目进行筛选,并结合人工标注,共计 20 万条天文对话数据。在未来,StarGLM 将进一步完善语言模型并增强专业多模态能力,包括进行二次预训练、扩充天文知识、调整监督微调中通用数据和专业数据的比例,缓解灾难性问题,并通过人工反馈的强化学习提升模型性能。
获取资源:
https://sota.jiqizhixin.com/project/starglm

开源科技文本理解和生成任务的大型语言模型墨子(Mozi),支持科技问答对话、信息抽取等特定任务
墨子(Mozi)是一个专注于科技文本理解和生成任务的大型模型。它包含了科技问答、对话、信息抽取和摘要理解等特定任务,并通过 llama7b 和 Baichuan7b 作为基座,使用 QLoRA 优化训练方法,在 8 卡 3090 服务器上经过约 9 天的训练完成。墨子支持最大输入长度为 4096。该模型使用了包括 4 亿标记的 arXiv 数据、2 亿标记的 CommonCrawl 数据和 4 亿标记的中文 Wikipedia 数据进行预训练。其中,涉及科技证据检索模型,能够准确检索与用户问题相关的科技文本段落,避免大型模型在理解论文全文时面临的长文本依赖和噪声干扰等问题。
获取资源:
https://sota.jiqizhixin.com/project/mozi

Meta开源基于PyTorch的开源音频生成库AudioCraft,可基于用户输入文本生成高质量、高保真音频
Meta 开源能够生成各种音频的 PyTorch 库——AudioCraft。AudioCraft 能够基于用户输入的文本生成高质量、高保真的音频。可以生成一些现实场景中的声音,还能生成有旋律的音乐。相比于文本、图像,音频生成是更具挑战性的,因为生成高保真音频需要对复杂的信号和模式进行建模。为了高质量地生成各类音频,AudioCraft 包含三个模型:MusicGen、AudioGen 和 EnCodec。其中,MusicGen 使用 Meta 具有版权的音乐数据进行训练,基于用户输入的文本生成音乐;AudioGen 使用公共音效数据进行训练,基于用户输入的文本生成音频;EnCodec 用于压缩音频并以高保真度重建原始信号,保证生成的音乐是高质量的。
获取资源:
https://sota.jiqizhixin.com/project/audiocraft

Project Jupyter官方子项目Jupyter AI开源,在Jupyter中可与大模型对话,辅助处理代码
Jupyter AI 是 Project Jupyter 的官方子项目,完全开源。它连接了来自 AI21、Anthropic、AWS、Cohere、OpenAI 等知名公司和机构的大模型,为 Jupyter 带来了巨大的变化。现在,开发者可以在 Jupyter 环境中生成代码、总结文档、创建注释、修复错误等操作。甚至可以使用文本提示生成 notebooks。Jupyter AI 的安装过程简单,提供了两种与大模型交互的界面。在 JupyterLab 中,可以使用聊天界面与大模型对话,辅助处理代码。在支持 notebook 或 IPython 的环境中,包括 JupyterLab、Notebook、IPython、Colab 和 Visual Studio Code,可以通过使用"%% ai"魔术命令调用大模型。
获取资源:
https://sota.jiqizhixin.com/project/jupyter-ai

开源工具包LLaMA2-Accessory,用于高效预训练、微调和部署大型语言模型
LLaMA2-Accessory 是一个开源工具包,用于预训练、微调和部署大型语言模型(LLM)和多模态语言模型。该工具包继承自 LLaMA-Adapter,并具有更高级的功能。它支持更多的数据集和任务,包括使用 RefinedWeb 和 StarCoder 进行预训练,以及单模态微调(如 Alpaca、ShareGPT、LIMA、UltraChat 和 MOSS)和多模态微调(如图像-文本对、交叉图像-文本数据和视觉指导数据)。LLaMA2-Accessory 还提供了 LLM 的 API 控制功能,并实现了高效的优化和部署,包括参数高效微调技术和优化方法。此外,它还支持多个视觉编码器和 LLM 模型,为用户提供了更多的选择和灵活性。
获取资源:
https://sota.jiqizhixin.com/project/llama2-accessory-2

用于构建简单、透明化的LLM应用的开源框架LLMFlows,可提高应用可维护性和可靠性
LLMFlows 是一个用于构建简单、透明化的大型语言模型(LLM)应用的框架,包括聊天机器人、问答系统和智能代理。LLMFlows 的核心是提供一个简约的抽象集合,让用户能够利用 LLM 和向量存储构建结构良好的应用,而无需隐藏的提示或 LLM 调用。LLMFlows 确保每个组件都完全透明,使监控、维护和调试简单便捷。该框架使开发人员能够更轻松地理解和控制 LLM 应用,提高了应用的可维护性和可靠性。
获取资源:
https://sota.jiqizhixin.com/project/llmflows


网页端访问: 在浏览器地址栏输入新版站点地址 sota.jiqizhixin.com ,即可前往「SOTA!模型」平台,查看关注的模型是否有新资源收录。
移动端访问:在微信移动端中搜索服务号名称「机器之心SOTA模型」或 ID 「sotaai」,关注 SOTA!模型服务号,即可通过服务号底部菜单栏使用平台功能,更有最新AI技术、开发资源及社区动态定期推送。
