Cerebras开源7个商用GPT模型;民间版中文羊驼、Dolly、OpenFlamingo等多个模型开源



本周带来的 12个 SOTA 模型分别用于聊天对话、医学对话、文本到视频生成、3D 生成、视觉问答
Cerebras开源7个可商用GPT模型,含数据集和可直接下载的预训练模型权重
Cerebras 开源 7 个 GPT 模型,均可商用,参数量分别达到 1.11 亿、2.56 亿、5.9 亿、13 亿、27 亿、67 亿和 130 亿。其中最大的模型参数量达到 130 亿,与 Meta 最近开源的 LLaMA-13B 相当。该项目开源数据集和预训练模型权重,其中预训练模型权重文件大小近50G可直接下载,并且可用于商业和研究用途。与此前的 GPT-3 模型相比,Cerebras 开源的模型具有更高的可用性和透明度,研究人员和开发者可以使用少量数据对其进行微调,构建出高质量的自然语言处理应用。
获取资源:
https://sota.jiqizhixin.com/project/cerebras-gpt

加州大学伯克利等开源Vicuna模型,基于LLaMA 13B构建可用于训练、微调
基于 LLaMA 模型的类 ChatGPT 轻量级模型的开源,使得研究和应用门槛降低,训练和推理成本也降低了。近日,加州大学伯克利分校、卡内基梅隆大学、斯坦福大学、加州大学圣迭戈分校的研究人员开源 Vicuna 模型,它基于 LLaMA 模型 13B 参数量的版本构建,并通过微调实现了高性能的对话生成。Vicuna 也使用了从 ShareGPT.com 收集的共享对话来微调基础模型, Vicuna 的生成质量更好,速度也更快。
获取资源:
https://sota.jiqizhixin.com/project/vicuna

基于LLaMA7B的聊天机器人GPT4All开源,支持在个人电脑运行
GPT4All 是基于大量干净的助手数据(包括代码、故事和对话)训练而成的聊天机器人,基于 LLaMA 7B 构建,在 M1 Mac、Windows 等环境都能运行。GPT4All 在 GPT-3.5-Turbo 的 800k 条数据上进行训练,包括文字问题、故事描述、多轮对话和代码。当前团队公开了收集的数据、数据整理程序、训练代码和最终的模型权重,此外还发布了模型的量化 4 位(quantized 4-bit)版本,这使得任何人都可以在 CPU 上运行该模型。
获取资源:
https://sota.jiqizhixin.com/project/gpt4all-2

ColossalAI开源ColossalChat,仅需单台服务器少量算力即可快速复现,降低应用门槛
ColossalAI 开源 ColossalChat,仅需不到百亿参数,高效轻量级,降低构建和应用的高昂成本。Colossal-AI 建立了包含监督数据集收集、监督微调、奖励模型训练、强化学习微调的完整 RLHF 流程,并以 LLaMA 为基础预训练模型,达到 GPT-3.5 类似的效果。当前项目公开测试 Demo,可直接在线体验模型效果,无需注册或 waitinglist,完整 RLHF 训练代码,含 7B 和 13B 两种模型;开源 104K 中、英双语的训练数据集;在推理部署方面,4bit 量化推理 70 亿参数模型仅需 4GB 显存,仅需单台服务器少量算力即可快速复现。
获取资源:
https://sota.jiqizhixin.com/project/colossalchat

Databricks开源Dolly,用Alpaca数据集微调GPT-J 6B得到,高效低成本训练只需30分钟
Databricks 开源大型语言模型 Dolly,训练只需三个小时、30 美元,且只需要非常少的数据和时间即可完成训练。Dolly 是基于 EleutherAI 在 2021 年开源的 GPT-J 自然语言处理模型创建的,由 60 亿个参数组成,能够与类似规模的 GPT-3 模型相媲美。尽管 Dolly 的规模比 ChatGPT 小得多,但 Databricks 表示 Dolly 具备同样的 “高超的互动能力”,当前该项目已开源 Dolly 及其训练数据,使得各个开发机构可以低成本构建自己的模型。
获取资源:
https://sota.jiqizhixin.com/project/dolly

LAION开源OpenFlamingo,支持大型多模态模型训练和评估的框架
DeepMind 的视觉语言模型 Flamingo,可将图像、视频和文本作为提示,并输出相关语言,并且只需少量特定的例子,而无需额外的训练。近日 LAION 公司开源 OpenFlamingo,它是 Flamingo 的一个开源实现,通过上下文学习训练视觉语言模型的开源框架。OpenFlamingo 的目标是开发一个可以处理各种视觉语言任务的多模态系统,并与 GPT-4 的功能和多功能性相匹配。当前 OpenFlamingo 提供了一个支持大型多模态模型训练和评估的框架,以及一个具有交错图像和文本序列的大规模多模态数据集和一个视觉语言任务的上下文学习评估基准。
获取资源:
https://sota.jiqizhixin.com/project/openflamingo

民间版中文羊驼模型开源,中文基础语义理解和指令执行能力皆提升
大语言模型(LLM)如 ChatGPT、GPT-4 等展现了类通用人工智能的能力,引起广泛关注。然而,由于它们的训练和部署都非常昂贵。为了促进大模型在中文 NLP 社区的开放研究,本项目开源了经过中文数据预训练的中文 LLaMA 大模型和经过指令精调的中文 Alpaca 大模型,并提供了快速本地部署和体验量化版大模型的方法。这些模型在中文基础语义理解能力方面有很大的提升,同时还提高了模型对指令的理解和执行能力。
获取资源:
https://sota.jiqizhixin.com/project/chinese-llama-alpaca

Picsart提出Text2Video-Zero,基于文本到图像生成模型构建,无需训练或优化,实现低开销、高质量的视频生成
Text2Video-Zero: Text-to-Image Diffusion Models are Zero-Shot Video Generators
Text2Video-Zero 基于文本到图像扩散模型构建,可用于文本到视频生成任务,该方法无需任何训练或优化)。该研究用运动动力学丰富生成帧的潜在代码,以保持全局场景和背景时间一致;以及使用第一帧上的每个帧的新的跨帧注意力来重新编程帧级自注意力,以保持前景对象的上下文、外观和身份。当前项目提供 Hugging Face 试用基于文本到图像扩散模型的文本到视频生成模型,无需任何训练或优化,实现低开销、高质量和显著一致的视频生成。
获取资源:
https://sota.jiqizhixin.com/project/text2video-zero

得克萨斯大学等提出ChatDoctor,利用医学领域知识对LLaMA模型进行微调,可用于患者的初诊和分诊
LLaMA-Adapter: Efficient Fine-tuning of Language Models with Zero-init Attention
通用领域的大型语言模型(LLM)在遵循指令和产生类似人类的响应方面取得了显著的成功。然而,这些语言模型并没有在医学领域单独仔细地学习,导致诊断准确性差,无法为医学诊断、药物等提供正确的建议。该研究收集了 700 多种疾病及其相应的症状、推荐的药物和所需的医学测试,然后生成 5K 个医患对话。利用提供的医患对话数据集微调 LLaMA 得到的医疗对话模型,可用于患者的初诊和分诊。当前项目开源实现代码、模型权重文件、训练数据集。
获取资源:
https://sota.jiqizhixin.com/project/chatdoctor

上海人工智能实验室等提出LLaMA-Adapter,将LLaMA微调为指令跟随模型,可简单地扩展到多模态输入
LLaMA-Adapter: Efficient Fine-tuning of Language Models with Zero-init Attention
该研究提出了 LLaMA Adapter,这是一种轻量级的自适应方法,可以有效地将 LLaMA 微调为指令跟随模型,可以简单地扩展到多模态输入。使用 52K 自学演示,LLaMA Adapter 仅在冻结的 LLaMA 7B 模型上引入了 1.2M 个可学习参数,并且在 8 个 A100 GPU 上进行微调的成本不到一个小时。通过高效的训练, LLaMA Adapter 可以产生高质量的响应,与完全微调 7B 参数的 LLAMA 相当。当前项目开源实现代码、模型权重文件,可使用 LLaMA 微调后的指令跟随模型进行推理。
获取资源:
https://sota.jiqizhixin.com/project/llama-adapter

马里兰大学等提出PAniC-3D,从单张动漫人物肖像中创建3D说话的头像
PAniC-3D: Stylized Single-view 3D Reconstruction from Portraits of Anime Characters
动漫风格领域对单视图重建提出了独特的挑战;与自然的人头图像相比,人物肖像插图的头发和配饰具有更复杂和多样化的几何形状,并用非真实感的轮廓线进行着色。此外,缺乏适合训练和评估这种模糊的风格化重建任务的 3D 模型和肖像插图数据。该研究提出的 PAniC-3D 架构,对动漫人物肖像的程式化单视图进行 3D 重建。当前项目开源实现代码、模型文件、训练数据集,可从单张动漫人物肖像中创建 3D 说话的头像。
获取资源:
https://sota.jiqizhixin.com/project/panic-3d

智源研究院等开源EVA-CLIP,零试图像分类高性能的CLIP模型
EVA-CLIP: Improved Training Techniques for CLIP at Scale
该研究提出了 EVA-CLIP,这是一系列显著提高 CLIP 训练效率和有效性的模型。该方法结合了表示学习、优化和增强的新技术,使 EVA-CLIP 与以前的 CLIP 模型相比,在相同数量的参数但显著降低训练成本的情况下,能够实现卓越的性能。结合了几种可以显著降低训练成本、稳定训练过程和提高零试性能的技术,包括使用预先训练的 EVA 表示初始化 CLIP、LAMB 优化器、随机删除输入 token 和名为 flash attention 的加速技巧,能够以较少的计算成本在规模上极大地稳定 CLIP 模型的训练,并且在广泛的零试基准上以更少的样本超过了 CLIP 训练模型。
获取资源:
https://sota.jiqizhixin.com/project/eva-clip

网页端访问: 在浏览器地址栏输入新版站点地址 sota.jiqizhixin.com ,即可前往「SOTA!模型」平台,查看关注的模型是否有新资源收录。
移动端访问:在微信移动端中搜索服务号名称「机器之心SOTA模型」或 ID 「sotaai」,关注 SOTA!模型服务号,即可通过服务号底部菜单栏使用平台功能,更有最新AI技术、开发资源及社区动态定期推送。
