Meta开源LLaMA,高效低预算推理只需GPT-3的1/10参数量



本周带来的 9 个 SOTA 模型分别用于基础语言模型研究、扩散模型、2D-3D图像生成、游戏关卡生成、文本到图像生成、算法优化;1个新思路关于使扩散模型能够由任意指导方式控制的通用算法。

Meta开源大型语言模型LLaMA,为研究社区提供开放高效的基础语言模型
LLaMA: Open and Efficient Foundation Language Models
该研究面向研究社区推出大型基础语言模型 LLaMa,参数范围从 7B 到 65B。LLaMa 基于世界上使用人数最多的 20 种语言的文本语料进行训练,通过训练更多的 tokens,在各种推理预算下实现最佳性能,其中 LLaMA 65B 和 33B 在 1.4 万亿个 tokens 上训练,最小的 7B 也经过 1 万亿个 tokens 上训练。实验表明,LLaMA-13B 比 GPT-3 小 10 倍,但在大多数基准测试中都优于 GPT-3。除了开源模型代码,该研究还提供一组评估模型偏差和有毒评论的基准,以显示模型的局限性并支持研究人员在这一关键领域进一步研究。
获取资源:
https://sota.jiqizhixin.com/project/llama

斯坦福大学提出ControlNet,为扩散模型增加额外输入来控制细节,以生成个性化图像
Adding Conditional Control to Text-to-Image Diffusion Models
大型文本到图像生成扩散模型可以基于 prompt 生成出色的图像,然而在面对用户对图像的个性化需求时,在架构设计上仍有提升空间。该研究提出了一种端到端的神经网络架构 ControlNet,可以通过添加额外输入(如草图、边缘图像、语义分割图),来控制扩散模型(如 Stable Diffusion)的生成细节,以此改善文生图效果,能实现线稿生成全彩图、通过手部关键点优化手部的生成等。ControlNet 在训练数据集很小 (< 50k)的情况下,也表现出稳健的效果。ControlNet 可在个人设备上进行训练,速度与微调扩散模型一样快。此外,当使用强大的计算集群,该模型可以扩展到大量(数百万到数十亿)数据。
获取资源:
https://sota.jiqizhixin.com/project/controlnet

卡内基梅隆大学提出pix2pix3D,可将简单笔画一键生成逼真3D模型
3D-aware Conditional Image Synthesis
该研究提出 pix2pix3D,一个用于可控逼真图像合成的 3D 感知条件生成模型。该模型可基于简单笔画生成 3D 模型,实现 2D 到3D 图像的转换。给定一个 2D 标签图,如分割图或边缘图,该模型会学习从不同的视角合成 3D 图像,除了为 3D 点分配颜色、密度外,还会分配一个标签,实现在渲染图像的同时,像素对齐标签图像。该研究通过构建一个交互式系统,用户可从任何角度编辑标签图,并生成对应的输出。
获取资源:
https://sota.jiqizhixin.com/project/pix2pix3d

哥本哈根信息技术大学提出MarioGPT,基于微调GPT2可生成88%可玩度的游戏关卡
MarioGPT: Open-Ended Text2Level Generation through Large Language Models
程序内容生成(PCG)的领域是指可以自动创建游戏内容的技术,如创建关卡、地图或角色,为游戏增加可玩性、降低成本。该研究将大型语言模型与 PCG 技术结合的,借助大型语言模型在多样化语料库训练后, 获得表示和预测复杂序列的知识来生成简单游戏组件。以此提出 MarioGPT,这是一个经过微调的 GPT2 模型,可生成基于图块的游戏关卡,其中生成关卡的可玩性高达 88%。
获取资源:
https://sota.jiqizhixin.com/project/mariogpt

北大等提出T2I-Adapter,为文本到图像扩散模型挖掘更多可控能力
T2I-Adapter: Learning Adapters to Dig out More Controllable Ability for Text-to-Image Diffusion Models
大规模文本-图像(T2I)模型的生成能力可以学习复杂结构和丰富的语义。然而,仅依靠文本提示并不能完全利用模型学到的知识,尤其是在需要灵活和准确的结构控制时。该研究旨在"挖出"T2I模型隐性学习的能力,然后明确地利用这些能力来更细化地控制生成。以此提出T2I-Adapters,使 T2I 模型中的内部知识与外部控制信号保持一致,通过冻结原有的大型 T2I模型,可以根据不同的条件训练各种适配器,实现丰富的控制和编辑效果。
获取资源:
https://sota.jiqizhixin.com/project/t2i-adapter

谷歌推出新优化器Lion,在性能和效率方面优于主流优化器
Symbolic Discovery of Optimization Algorithms
该研究提出将算法发现表述为程序搜索的方法,并将其应用于发现深度神经网络训练的优化算法,以此推出的新优化器 Lion。在广泛任务中,包括图像分类、视觉-语言对比学习、扩散模型和语言建模的结果表明, Lion 优于主流优化器(如 Adam 和 Adafactor)。例如,在扩散模型上,Lion 获得最佳 FID 分数并节省 2.3 倍训练计算量,优于 Adam。在自回归、屏蔽语言建模和微调,与 Adam 相比,Lion 表现出相媲美或更好的性能。
获取资源:
https://sota.jiqizhixin.com/project/lion-2

北京国家信息科学技术研究中心等提出TPVFormer,使用三透视图表示描述自动驾驶场景
Tri-Perspective View for Vision-Based 3D Semantic Occupancy Prediction
以视觉为中心的自动驾驶感知的现代方法广泛采用鸟瞰图(BEV)表示来描述 3D 场景。尽管它比体素表示效率更好,但它很难用单个平面描述场景的细粒度 3D 结构。该研究提出了一种三透视图(TPV)表示,该表示伴随着 BEV 以及两个附加的垂直平面,通过对三个平面上的投影特征求和,对三维空间中的每个点进行建模。还提出了一种基于 Transformer 的 TPV 编码器(TPVFormer),将图像特征提升到 3D TPV 空间。该研究用稀疏监督训练的模型有效地预测了所有体素的语义占用率,并在 nuScene 上的 LiDAR 分割任务中,仅使用相机输入可实现与基于 LiDAR 方法相当的性能。
获取资源:
https://sota.jiqizhixin.com/project/tpvformer

马里兰大学提出通用引导算法,使扩散模型能够被任意的引导模式所控制
Universal Guidance for Diffusion Models
典型的扩散模型被训练成接受一种特定形式的条件,最常见的是文本,如果不重新训练就不能接受其他模式的条件。该研究提出了一种通用的引导算法,使扩散模型能够被任意的引导模式所控制,而不需要重新训练任何特定用途的组件。该算法成功地生成了高质量的图像,其引导功能包括分割、面部识别、物体检测和分类器信号。

魏茨曼科技大学提出MultiDiffusion,可生成通用且可控的图像,无需进一步微调或训练
MultiDiffusion: Fusing Diffusion Paths for Controlled Image Generation
扩散模型在文本-图像生成方面取得变革性突破。然而,用户对生成的图像的可控性,以及对新任务的快速适应仍存在提升空间。当前主要通过昂贵而漫长的重新训练和微调或对特定图像生成任务的临时适应来解决这一挑战。该研究提出 MultiDiffusion,能够实现多功能和可控的图像生成,使用预训练文本到图像扩散模型,无需进一步训练或微调。
获取资源:
https://sota.jiqizhixin.com/project/multidiffusion

剑桥等开源贝叶斯优化和主动学习工具包Trieste,支持主流TensorFlow模型
Trieste: Efficiently Exploring The Depths of Black-box Functions with TensorFlow
该研究提出 Trieste,一个开源的 Python 包,用于贝叶斯优化和主动学习,受益于 TensorFlow 的可扩展性和效率。该工具库可以在顺序决策循环中即插即用流行的基于 TensorFlow 的模型,例如 GPflow 或 GPflux 的高斯过程,或 Keras 的神经网络。这种模块化思维是软件包的核心,并延伸到采集功能和决策环路的内部动态,研究人员或工程师在处理自定义用例时可以对这两者进行定制和扩展。Trieste 是一个便于研究和生产的工具包,有一个全面的测试套件和大量的文档支持。
获取资源:
https://sota.jiqizhixin.com/project/trieste

北京理工大学提出高效、低复杂度和无锚点的目标检测器EdgeYOLO,可在边缘计算平台上实现实时检测
EdgeYOLO: An Edge-Real-Time Object Detector
该研究提出基于最先进的 YOLO 框架的高效、低复杂度和无锚的物体检测器 EdgeYOLO,它可以在边缘计算平台上实现实时目标检测。通过开发一种数据增强方法来有效抑制训练过程中的过拟合,并设计了一个混合随机损失函数来提高小物体的检测精度。在 FCOS 的启发下,提出了一个更轻、更高效的解耦头,其推理速度可以在几乎没有精度损失的情况下得到提高,同时为计算能力较低的边缘计算设备设计了参数较少的轻型模型。其实验结果在精度上达到 SOTA,在边缘计算设备满足实时需求。
获取资源:
https://sota.jiqizhixin.com/project/edgeyolo


网页端访问: 在浏览器地址栏输入新版站点地址 sota.jiqizhixin.com ,即可前往「SOTA!模型」平台,查看关注的模型是否有新资源收录。
移动端访问:在微信移动端中搜索服务号名称「机器之心SOTA模型」或 ID 「sotaai」,关注 SOTA!模型服务号,即可通过服务号底部菜单栏使用平台功能,更有最新AI技术、开发资源及社区动态定期推送。
