Llama2开源编程版模型CodeLlama（含7/13/34B）；法律智海录问模型等项目开源

2023-08-31 13:11 作者:AI试库の小土同学 0人读过 | 我要投稿

本周带来的 10 个模型项目分别用于代码生成、图文对话、多语言翻译、法律知识问答、视频风格迁移等。

Meta开源代码编程任务微调版Llama2模型CodeLlama，参数涵盖7B、13B和34B

Meta 开源的针对代码编程任务进行了微调的 Llama2 版模型 Llama2，支持大型输入上下文，以及编程任务的零样本指令跟随能力。提供多种版本以覆盖广泛的应用程序：基础模型（CodeLlama），Python 专业化（CodeLlama - Python）和指令跟随模型（CodeLlama - Instruct），每个模型都有 7B、13B 和 34B 参数。所有模型都在 16k tokens 的序列上进行训练，并在最多 100k tokens 的输入上显示改进。7B 和 13B CodeLlama 和 CodeLlama - Instruct 变体支持基于周围内容的填充。CodeLlama 是通过使用更高的代码采样对 Llama 2 进行微调而开发的。

获取资源：

https://sota.jiqizhixin.com/project/codellama

Huggingface开源80B规模视觉语言模型，基于Flamingo模型增强，同时开源数据集OBELICS

IDEFICS 是一个 80B 规模开源视觉语言模型，基于 Flamingo 模型进行增强，支持图像和文本作为输入，并生成连贯的文本输出。它完全基于公开可用的数据和模型构建，并提供两个版本，参数大小分别为 90 亿和 800 亿。发布 IDEFICS 是为了为多模态 AI 系统的开放研究提供一个坚实的基础，同时为 AI 系统的透明度做出重要贡献。同时，开放的还有 OBELICS，一个开放的大型数据集，由 1.41 亿个网页、3.53 亿张图像和 1150 亿文本 Token 组成。

获取资源：

https://sota.jiqizhixin.com/project/idefics

Meta开源大规模多语言和多模态机器翻译模型SeamlessM4T，支持近100种语言翻译、转录语音和文本

SeamlessM4T 是一种支持近 100 种语言的多语言和多模态机器翻译模型，该模型采用了自我监督学习和多模态数据对齐等先进技术，构建了一个单一的模型，可以实现多语言翻译，提高了翻译质量和效率。在 FLEURS 上的测试中，SeamlessM4T 取得了比之前 SOTA 模型提高 20% BLEU 的成绩，并在语音到文本和语音到语音翻译中，分别比强大的级联模型提高了 1.3 BLEU 和 2.6 ASR-BLEU 点的质量。此外，SeamlessM4T 在语音到文本任务中对背景噪声和说话者变化的表现也比当前 SOTA 模型更好，证明了其在实际应用中的可靠性。

获取资源：

https://sota.jiqizhixin.com/project/seamlessm4t

阿里云开源大规模视觉语言模型Qwen-VL，新增视觉定位、图像文字描述能力

阿里云开源的大规模视觉语言模型 Qwen-VL，包含基础模型和对齐模型两个版本。该模型可将图像、文本、检测框作为输入，并以文本和检测框作为输出，可用于知识问答、图像标题生成、图像问答、文档问答、细粒度视觉定位等场景。基础模型以 Qwen-7B 的预训练模型作为语言模型的初始化，并以 Openclip ViT-bigG 作为视觉编码器的初始化，中间加入单层随机初始化的 cross-attention，经过约 1.5B 的图文数据训练得到，可输入分辨率为 448 的图像。Qwen-VL-Chat 在 Qwen-VL 的基础上，使用对齐机制构建，支持更灵活的交互方式，包括多图、多轮问答、创作等能力。

获取资源：

https://sota.jiqizhixin.com/project/qwen-vl-tong-yi-qian-wen

上下文长度达32k的开源可商用大模型，基于LLaMa-13B和LLaMa2-13B训练

Abacus.AI 发布三个新的 13B 参数长上下文模型 Giraffe，包括两个基于 LLaMA-13B 训练而成的模型：上下文长度分别为 4k 和 16k；一个基于 LLaMA2-13B 训练而成的模型，上下文长度是 32k，该模型也是首个基于 LLaMA2 的 32k 上下文窗口开源 LLM。可以处理长序列和复杂的语言任务，在各种语言任务和数据集上表现出色，特别是在处理长序列和扩展上下文长度方面表现突出。此外，Giraffe 创新性提出了截断的方法，并提供了多种上下文长度外推方法，可以根据不同的任务和数据集选择最适合的方法，并且可以通过 HuggingFace API 方便地使用。

获取资源：

https://sota.jiqizhixin.com/project/giraffe-2

法律大模型智海-录问，基于Baichuan-7B进行二次预训练和指令微调训练

智海-录问（wisdomInterrogatory）是由浙江大学、阿里巴巴达摩院以及华院计算三家单位共同设计研发的法律大模型，基于 Baichuan-7B 模型基座，进行了二次预训练和指令微调训练。二次预训练为通用的大模型注入了法律领域的知识。在指令微调阶段，使用了 100k 的指令微调训练，以使大模型具备问答能力，能够直接与用户进行交流。智海-录问通过构建知识库，并进行意图识别、知识检索、知识融合，实现模型增强，以为法律智能化体系入司法实践、数字化案例建设、虚拟法律咨询服务赋能等方面提供支持。

获取资源：

https://sota.jiqizhixin.com/project/wisdominterrogatory

香港科技大学等团队发布新的视频处理算法CoDeF，基于输入的提示词精准控制视频，可改变完整视频的画风

CoDeF 是一种新型视频处理算法，可基于输入的提示词改变完整视频的画风。该算法将输入视频分解为静态内容场和时间变形场。前者用于聚合整个视频中的静态内容，后者则负责记录图像沿时间轴的每个单独帧的转换过程。CoDeF 能够自然地支持将图像算法用于视频处理，并在处理视频时实现更好的跨帧一致性。这种表示方式可轻松地将图像算法应用于视频处理，具有广泛的应用前景，如视频处理、计算机视觉、多媒体处理等领域。

获取资源：

https://sota.jiqizhixin.com/project/codef

基于LLaMa2 70B开源的大型语言模型Lemur，可平衡文本和代码生成，含预训练和微调两个版本

传统上，开源大语言模型（LLM）是为文本或代码相关任务量身定制的，很难有效平衡两者的能力有限。然而，许多复杂的语言应用程序，特别是语言模型代理，需要具有多方面技能的系统，包括理解、推理、规划、编码和上下文基础。开源大型语言模型 Lemur，发布了预训练模型 Lemur-70B-v1 和监督微调 Lemur-70B-chat-v1 版本，可平衡文本和代码生成。Lemur-70B-v1 模型基于 LLaMa-2 70B 初始化，并在 100B 文本和代码数据上进一步训练；Lemur-70B-chat-v1 模型基于有监督的微调数据初始化并继续训练。

获取资源：

https://sota.jiqizhixin.com/project/lemur

开源专家混合（MoE）大型语言模型系列，基于ST-MoE的解码器架构

OpenMoE 是开源专家混合（MoE）大型语言模型，使用高比例的编码数据来提高推理能力，使用 umt5 Tokenizer 来支持将来的多语言继续学习，可以在 Huggingface 或 Google Cloud 上下载。OpenMoE 基于 ST-MoE，但使用仅解码器架构，RoPE，SwiGLU 激活，2K 上下文长度。目前开源三个版本的模型，包括 OpenMoE-base/16E、OpenLLaMA-base，以及 OpenMoE-8B/32E。

获取资源：

https://sota.jiqizhixin.com/project/openmoe

文本驱动的视频编辑框架StableVideo，可实现一致性感知的视频编辑

StableVideo 是一种基于扩散模型的文本驱动视频编辑方法，该模型通过引入时间依赖性，使得编辑后的视频对象在不同时间帧中具有一致性。这种方法基于分层表示的概念，通过帧间传播机制来传递外观信息，从而实现对视频的编辑。实验结果表明，与其他基于扩散的视频编辑方法相比，StableVideo 在定性和定量方面都表现出了优越的视频编辑结果。

获取资源：

https://sota.jiqizhixin.com/project/stablevideo