AutoGPT等爆款实验性应用开源;Dolly2.0、TurboPilot、凤凰等多个开源模型发布



本周带来的 6 个 SOTA 模型分别用于聊天对话、说话头像视频生成、通用图像分割等;9 个工具用于规划执行复杂任务、AI代理开发、代码助手开发、AGI研究等。
GPT4应用项目Auto-GPT开源,给定复杂任务即可自主规划和实施解决方案
Auto-GPT 是基于 GPT4 的开源 AI 代理 Python 应用程序,由开发人员 Significant Ggravitas 近日发布在 GitHub 上。用户仅需要提供给 Auto-GPT 目标任务,即可全自动地根据任务指令进行分析和执行,自己给自己提问并进行回答,中间环节不需要用户参与。目前 AutoGPT 已经配备的功能包括:联网搜集信息;存储信息;生成用于文本生成的 GPT-4 实例;使用 GPT-3.5 总结信息等。项目现已在 github 开源并可部署在本地,但需要 GPT4 的资格。
获取资源:
https://sota.jiqizhixin.com/project/auto-gpt

基于Auto-GPT开发AI代理的项目AgentGPT,可直接在浏览器上部署的个人AI代理
AgentGPT 是开发者对基于 GPT4 的 AI 代理应用 Auto-GPT 的浏览器部署,旨在实现一个可以在浏览器中组装、配置和部署自主 AI 代理的项目。AgentGPT 可以让用户自主命名自己的 AI 代理,给定任务后,AgentGPT 会自主规划和实现需求任务。当前,AgentGPT 已经在 github 上开源了其本地部署的代码,但完全体验仍需要 GPT4 的资格。
获取资源:
https://sota.jiqizhixin.com/project/agentgpt

基于SAM的强大Zero-Shot视觉应用,Grounded-Segment-Anything,分割、生成、检测一应俱全
Grounded-Segment-Anything 是国内 IDEA 研究院研究者等人基于 Segment Anything 构建的视觉应用流,主要基于三种现有强大的 Zero-shot 大模型的组合:最强的 Zero-Shot 检测器 Grounding DINO,最强的 Zero-Shot 分割器 SAM,最强的 Zero-Shot 生成器 Stable diffusion。三种类型的模型可以分开使用,也可以组合式使用,组建出强大的视觉工作流模型,仅需文本输入即可实现图像内特定的实例分割并对分割区域进行可控生成替换。项目目前已经在 github 开源,同时也提供了丰富的集成扩展 demo。
获取资源:
https://sota.jiqizhixin.com/project/grounded-segment-anything

微软开源DeepSpeed Chat,以更低的成本、更快的速度训练类似于ChatGPT的高质量大模型
DeepSpeed Chat 提供了一个端到端的 RLHF 规模化系统,让更多用户能够在本地训练一个类似 ChatGPT 的大规模语言模型。开发者只需一个脚本,就能实现多个训练步骤,并且在完成后还可以利用推理 API 进行对话式交互测试。同时 DeepSpeed-RLHF 系统在大规模训练中具有非常高的效率,使复杂的 RLHF 训练变得快速、经济并且易于大规模推广,仅需 1-2 个小时即可完成 13 亿参数模型的训练。目前,DeepSpeed Chat 项目已在 github 开源并提供了丰富的可扩展应用及不同训练阶段的 api。
获取资源:
https://sota.jiqizhixin.com/project/deepspeed-chat

LAION AI等机构开源聊天助手Open-Assistant,可与第三方系统交互并动态检索信息
LAION AI 等开源一个基于聊天的助手OpenAssistant,可以理解任务、与第三方系统交互、动态检索信息。OpenAssistant 是在 LAION AI 开源的人类数据集(OpenAssistant Conversations)上进行训练的完全开源的大规模指令微调模型,该数据集基于大量基于文本的输入和反馈,由人工生成、人工注释的助理式对话语料库,覆盖了广泛的主题和写作风格,由 161443 条消息组成,分布在 66497 个会话树中,使用 35 种不同的语言。结果显示,OpenAssistant 的回复比 GPT-3.5-turbo (ChatGPT) 更受欢迎。
获取资源:
https://sota.jiqizhixin.com/project/open-assistant

阿卜杜拉国王科技大学开源多智能体代码库CAMEL,提出了通过角色扮演框架来研究LLM智能体的行为和能力
CAMEL: Communicative Agents for “Mind” Exploration of Large Scale Language Model Society
该研究通过 “角色扮演”(Role-Playing)的新型多智能体框架,使多个智能体能够进行对话并合作解决分配的任务。智能体会被分配不同的角色,并被期望应用他们的专业和知识来找到满足他们共同任务的解决方案。并使用启示式提示(Inception Prompt)来引导聊天智能体完成任务,同时与人类意图保持一致。以此开源了用于探索大语言模型(LLM)思想和能力的多智能体代码库 CAMEL,提出了通过角色扮演框架来研究 LLM 智能体的行为和能力。该项目当前支持 Colab 在线试用两个ChatGPT 代理间的角色对话,并提供可扮演的角色列表。
获取资源:
https://sota.jiqizhixin.com/project/camel-2

基于GPT4的Python Debug工具Wolverine,根据报错信息持续动修复Python中的bug
国外开发者 BioBootloader 在 github 上开源了基于 GPT4 的 Python Debug 工具 Wolverine(金刚狼)。使用该项目运行代码时,一旦出现报错,GPT-4 就会自动编辑,然后给出出错的原因,通过不断地持续该过程,即使代码内全是 bug,也能完整的修复代码。项目开源了其非常重要的的提示语库,供开发者了解工作机制,并将持续开发其他编程语言的版本。
获取资源:
https://sota.jiqizhixin.com/project/wolverine

港中文发布大型语言模型Phoenix(凤凰)、Chimera,中文效果惊艳、模型权重已发布
近日香港中文大学(深圳)和深圳市大数据研究院的王本友教授团队开发的 Phoenix(凤凰) 和 Chimera 等开源大语言模型,其中文效果接近百度文心一言,GPT-4 评测达到了 97% 文心一言的水平,在人工评测中五成不输文心一言。Phoenix 和 Chimera 等开源大语言模型在中文和多种语言环境下都展现出了优异的表现,无论是在中文开源模型中还是在拉丁语系中。当前项目已开源 2 个 Phoenix 型号、4 个 Chimera 型号的模型权重。
获取资源:
https://sota.jiqizhixin.com/project/llmzoo

可本地部署的类Copilot代码助手TurboPilot开源,仅需4G RAM即可实现
TurboPilot 是基于 Salesforce Codegen model 的类 Copilot 语言模型,项目主要基于 llma.cpp 实现本地快速部署,并提供不同体量、不同语言版本的预训练权重供开发者体验。仅需 4GB 的 RAM 即可运行 60 亿参数的 Salesforce Codegen 模型。
获取资源:
https://sota.jiqizhixin.com/project/turbopilot

完全开源的类ChatGPT模型Dolly 2.0,基于自主构建的指令集微调并可直接商用
Dolly 2.0 是 databricks 提出的开源对话模型,它基于开源 EleutherAI pythia 模型系列,专门针对小型开源指令记录语料库进行了微调(databricks-dolly-15k),该数据集由 Databricks 员工生成,许可条款允许出于任何目的使用、修改和扩展,包括学术或商业应用。其精调数据集由专业人士构建并含有大量长文本问答数据。目前,Dolly 2.0 的模型权重和精调数据集均已经开源,并可任意修改。
获取资源:
https://sota.jiqizhixin.com/project/dolly-2-0

腾讯等提出SadTalker,输入人脸图像和一段语音音频来生成会说话的头像视频
SadTalker: Learning Realistic 3D Motion Coefficients for Stylized Audio-Driven Single Image Talking Face Animation
输入人脸图像和一段语音音频来生成会说话的头像视频包含许多挑战,即不自然的头部运动、扭曲的表情和身份修改。该研究提出 SadTalker,它可从音频中生成 3D 头部姿势、表情,并隐含地调制 3D 感知面部渲染器,用于生成说话的头部。具体地,该研究使用 ExpNet 提炼系数和 3D 渲染的脸部,来从音频中学习准确的面部表情。通过条件 VAE 设计 PoseVAE 来合成不同风格的头部姿势。该项目可 Colab、Hugging Face 试用,提供 Windows/Linux 安装教程、推理配置的最佳实践和技巧。
获取资源:
https://sota.jiqizhixin.com/project/sadtalker

微软用GPT-4做大模型指令微调,新任务零试性能再提升
Instruction Tuning with GPT-4
微软研究院使用 GPT-4 作为教师模型进行 self-intruct 微调,并基于 GPT-4 生成的数据开发了指令微调的 LLaMA 模型和奖励模型。该项目发布了 GPT-4 生成的数据,包括中英文的 52k 指令遵循数据集、GPT-4 生成的对三种指令微调模型的输出进行评级的反馈数据。实验表明,GPT-4 生成的 52k 中英指令遵循数据在新任务上实现了较以往 SOTA 模型更好的零试性能。
获取资源:
https://sota.jiqizhixin.com/project/gpt-4-llm

Meta等提出开放类分割模型OVSeg,可与Segment Anything结合,完成细粒度开放语言分割
Open-Vocabulary Semantic Segmentation with Mask-adapted CLIP
Meta 等提出开放类分割模型 OVSeg,可与 Segment Anything 结合,完成细粒度开放语言分割开放词汇语义分割旨在根据文本描述将图像分割成语义区域,这些区域在训练期间可能会被忽略。Meta 等提出开放类分割模型 OVSegOVSeg,在一组被掩膜的图像区域和它们对应的文本描述的收集的数据上对 CLIP 进行微调。实验表明,掩膜提示微调可以在不修改任何CLIP 权重的情况下带来显著性能提升。OVSeg 可进一步与 Segment Anything 结合,完成细粒度的开放语言分割。比如识别图中多个花朵的种类:sunflowers (向日葵)、white roses (白玫瑰)等。当前项目提供 Hugging Face 体验分割效果。
获取资源:
https://sota.jiqizhixin.com/project/ovseg

智源研究院推出通用分割模型SegGPT,利用视觉提示完成任意分割任务的通用视觉模型
SegGPT: Segmenting Everything In Context
智源研究院视觉团队推出了通用分割模型 SegGPT(Segment Everything In Context),它能通过视觉提示来完成任意分割任务。SegGPT 可以根据用户提供的示例图像和意图掩码来完成类似的分割任务,无论是在当前画面还是其他画面或视频环境中。通过交互提示,SegGPT 也能识别分割画面上的指定物体。该模型具有通用能力、灵活推理能力和自动视频分割和追踪能力等优势。SegGPT 是智源通用视觉模型 Painter 的衍生模型,可分割一切物体。无需微调,只需提供示例即可完成对应分割任务。
获取资源:
https://sota.jiqizhixin.com/project/seggpt

罗格斯大学发布AGI研究平台OpenAGI,专门用于提供复杂、多步骤任务,并伴有特定任务的数据集、评估指标和各种可扩展的模型
OpenAGI: When LLM Meets Domain Experts
大型语言模型(LLMs)出色的学习和推理能力,使其有望成为选择、合成和执行外部模型以解决复杂任务的控制器。该研究开发了 OpenAGI,一个开源的 AGI 研究平台,专门用于提供复杂的、多步骤的任务,并伴有特定任务的数据集、评估指标和各种可扩展的模型。OpenAGI 将复杂的任务制定为自然语言查询,作为 LLM 的输入。LLM 随后选择、合成并执行 OpenAGI 提供的模型来解决该任务。此外,还提出了一个从任务反馈中强化学习(RLTF)的机制,该机制使用任务解决的结果作为反馈来提高 LLM 的任务解决能力。当 LLM 负责综合各种外部模型来解决复杂的任务,RLTF 则提供反馈来提高其任务解决能力,从而实现自我改进的人工智能的反馈循环。
获取资源:
https://sota.jiqizhixin.com/project/openagi


网页端访问: 在浏览器地址栏输入新版站点地址 sota.jiqizhixin.com ,即可前往「SOTA!模型」平台,查看关注的模型是否有新资源收录。
移动端访问:在微信移动端中搜索服务号名称「机器之心SOTA模型」或 ID 「sotaai」,关注 SOTA!模型服务号,即可通过服务号底部菜单栏使用平台功能,更有最新AI技术、开发资源及社区动态定期推送。
