欢迎光临散文网 会员登陆 & 注册

Llama2开源编程版模型CodeLlama(含7/13/34B);法律智海录问模型等项目开源

2023-08-31 13:11 作者:AI试库の小土同学  | 我要投稿


看看本周新进展

本周带来的 10 个模型项目分别用于代码生成、图文对话、多语言翻译、法律知识问答、视频风格迁移等。


Meta开源代码编程任务微调版Llama2模型CodeLlama,参数涵盖7B、13B和34B 

Meta 开源的针对代码编程任务进行了微调的 Llama2 版模型 Llama2,支持大型输入上下文,以及编程任务的零样本指令跟随能力。提供多种版本以覆盖广泛的应用程序:基础模型(CodeLlama),Python 专业化(CodeLlama - Python)和指令跟随模型(CodeLlama - Instruct),每个模型都有 7B、13B 和 34B 参数。所有模型都在 16k tokens 的序列上进行训练,并在最多 100k tokens 的输入上显示改进。7B 和 13B CodeLlama 和 CodeLlama - Instruct 变体支持基于周围内容的填充。CodeLlama 是通过使用更高的代码采样对 Llama 2 进行微调而开发的。

获取资源:

https://sota.jiqizhixin.com/project/codellama


Huggingface开源80B规模视觉语言模型,基于Flamingo模型增强,同时开源数据集OBELICS

IDEFICS 是一个 80B 规模开源视觉语言模型,基于 Flamingo 模型进行增强,支持图像和文本作为输入,并生成连贯的文本输出。它完全基于公开可用的数据和模型构建,并提供两个版本,参数大小分别为 90 亿和 800 亿。发布 IDEFICS 是为了为多模态 AI 系统的开放研究提供一个坚实的基础,同时为 AI 系统的透明度做出重要贡献。同时,开放的还有 OBELICS,一个开放的大型数据集,由 1.41 亿个网页、3.53 亿张图像和 1150 亿文本 Token 组成。

获取资源:

https://sota.jiqizhixin.com/project/idefics


Meta开源大规模多语言和多模态机器翻译模型SeamlessM4T,支持近100种语言翻译、转录语音和文本

SeamlessM4T 是一种支持近 100 种语言的多语言和多模态机器翻译模型,模型采用了自我监督学习和多模态数据对齐等先进技术,构建了一个单一的模型,可以实现多语言翻译,提高了翻译质量和效率。在 FLEURS 上的测试中,SeamlessM4T 取得了比之前 SOTA 模型提高 20% BLEU 的成绩,并在语音到文本和语音到语音翻译中,分别比强大的级联模型提高了 1.3 BLEU 和 2.6 ASR-BLEU 点的质量。此外,SeamlessM4T 在语音到文本任务中对背景噪声和说话者变化的表现也比当前 SOTA 模型更好,证明了其在实际应用中的可靠性。

获取资源:

https://sota.jiqizhixin.com/project/seamlessm4t


阿里云开源大规模视觉语言模型Qwen-VL,新增视觉定位、图像文字描述能力

阿里云开源的大规模视觉语言模型 Qwen-VL,包含基础模型和对齐模型两个版本。该模型可将图像、文本、检测框作为输入,并以文本和检测框作为输出,可用于知识问答、图像标题生成、图像问答、文档问答、细粒度视觉定位等场景。基础模型以 Qwen-7B 的预训练模型作为语言模型的初始化,并以 Openclip ViT-bigG 作为视觉编码器的初始化,中间加入单层随机初始化的 cross-attention,经过约 1.5B 的图文数据训练得到,可输入分辨率为 448 的图像。Qwen-VL-Chat 在 Qwen-VL 的基础上,使用对齐机制构建,支持更灵活的交互方式,包括多图、多轮问答、创作等能力。

获取资源:

https://sota.jiqizhixin.com/project/qwen-vl-tong-yi-qian-wen


上下文长度达32k的开源可商用大模型,基于LLaMa-13B和LLaMa2-13B训练

Abacus.AI 发布三个新的 13B 参数长上下文模型 Giraffe,包括两个基于  LLaMA-13B 训练而成的模型:上下文长度分别为 4k 和 16k;一个基于 LLaMA2-13B 训练而成的模型,上下文长度是  32k,该模型也是首个基于 LLaMA2 的 32k 上下文窗口开源 LLM。可以处理长序列和复杂的语言任务,在各种语言任务和数据集上表现出色,特别是在处理长序列和扩展上下文长度方面表现突出。此外,Giraffe 创新性提出了截断的方法,并提供了多种上下文长度外推方法,可以根据不同的任务和数据集选择最适合的方法,并且可以通过 HuggingFace API 方便地使用。

获取资源:

https://sota.jiqizhixin.com/project/giraffe-2


法律大模型智海-录问,基于Baichuan-7B进行二次预训练和指令微调训练

智海-录问(wisdomInterrogatory)是由浙江大学、阿里巴巴达摩院以及华院计算三家单位共同设计研发的法律大模型,基于 Baichuan-7B 模型基座,进行了二次预训练和指令微调训练。二次预训练为通用的大模型注入了法律领域的知识。在指令微调阶段,使用了 100k 的指令微调训练,以使大模型具备问答能力,能够直接与用户进行交流。智海-录问通过构建知识库,并进行意图识别、知识检索、知识融合,实现模型增强,以为法律智能化体系入司法实践、数字化案例建设、虚拟法律咨询服务赋能等方面提供支持。

获取资源:

https://sota.jiqizhixin.com/project/wisdominterrogatory


香港科技大学等团队发布新的视频处理算法CoDeF,基于输入的提示词精准控制视频,可改变完整视频的画风

CoDeF 是一种新型视频处理算法,可基于输入的提示词改变完整视频的画风。该算法将输入视频分解为静态内容场和时间变形场。前者用于聚合整个视频中的静态内容,后者则负责记录图像沿时间轴的每个单独帧的转换过程。CoDeF 能够自然地支持将图像算法用于视频处理,并在处理视频时实现更好的跨帧一致性。这种表示方式可轻松地将图像算法应用于视频处理,具有广泛的应用前景,如视频处理、计算机视觉、多媒体处理等领域。

获取资源:

https://sota.jiqizhixin.com/project/codef


基于LLaMa2 70B开源的大型语言模型Lemur,可平衡文本和代码生成,含预训练和微调两个版本

传统上,开源大语言模型 (LLM) 是为文本或代码相关任务量身定制的,很难有效平衡两者的能力有限。然而,许多复杂的语言应用程序,特别是语言模型代理,需要具有多方面技能的系统,包括理解、推理、规划、编码和上下文基础。开源大型语言模型 Lemur,发布了预训练模型 Lemur-70B-v1 和监督微调 Lemur-70B-chat-v1 版本,可平衡文本和代码生成。Lemur-70B-v1 模型基于 LLaMa-2 70B 初始化,并在 100B 文本和代码数据上进一步训练;Lemur-70B-chat-v1 模型基于有监督的微调数据初始化并继续训练。

获取资源:

https://sota.jiqizhixin.com/project/lemur


开源专家混合(MoE)大型语言模型系列,基于ST-MoE的解码器架构

OpenMoE 是开源专家混合(MoE)大型语言模型,使用高比例的编码数据来提高推理能力,使用 umt5  Tokenizer 来支持将来的多语言继续学习,可以在 Huggingface 或 Google  Cloud 上下载。OpenMoE 基于 ST-MoE,但使用仅解码器架构,RoPE,SwiGLU 激活,2K 上下文长度。目前开源三个版本的模型,包括 OpenMoE-base/16E、OpenLLaMA-base,以及 OpenMoE-8B/32E。

获取资源:

https://sota.jiqizhixin.com/project/openmoe


文本驱动的视频编辑框架StableVideo,可实现一致性感知的视频编辑

StableVideo 是一种基于扩散模型的文本驱动视频编辑方法,该模型通过引入时间依赖性,使得编辑后的视频对象在不同时间帧中具有一致性。这种方法基于分层表示的概念,通过帧间传播机制来传递外观信息,从而实现对视频的编辑。实验结果表明,与其他基于扩散的视频编辑方法相比,StableVideo 在定性和定量方面都表现出了优越的视频编辑结果。

获取资源:

https://sota.jiqizhixin.com/project/stablevideo

网页端访问: 在浏览器地址栏输入新版站点地址 sota.jiqizhixin.com ,即可前往「SOTA!模型」平台,查看关注的模型是否有新资源收录。 

移动端访问:在微信移动端中搜索服务号名称「机器之心SOTA模型」或 ID 「sotaai」,关注 SOTA!模型服务号,即可通过服务号底部菜单栏使用平台功能,更有最新AI技术、开发资源及社区动态定期推送。 


Llama2开源编程版模型CodeLlama(含7/13/34B);法律智海录问模型等项目开源的评论 (共 条)

分享到微博请遵守国家法律