欢迎光临散文网 会员登陆 & 注册

CV不存在?视觉大模型SAM—万物皆可分割,强到离谱!

2023-04-21 10:35 作者:跟着唐宇迪学AI  | 我要投稿

     Chat-GPT在NLP领域名声大噪之后,业界的很多人都在期待视觉大模型的出现,Meta不负众望,近日将SAM(Segment Anything Model)模型推向风口浪尖,官网的演示效果靠实力出圈,不仅具备多元化的动态交互,而且实现了零样本的迁移,模型似乎已经拥有“物体”的概念,可以较好地应对不熟悉的内容,分割效果非常吸睛。


    资料已经整理好了,文末附下载方式!以下是详细内容介绍~

知识大纲图

论文中对此项科研工作的贡献总结为以下三个方面:任务、模型、数据

(1)任务

    受语言基础大模型的启发,将“提示工程”引入视觉,工作目标是使得模型能够根据提示信息返回有效的分割结果,其中提示可以是多元的,比如某些空间信息或文本信息,以提示分割任务作为训练的出发点,并通过提示工程实现下游分割场景的零样本迁移。

(2)模型

    搭建模型需要三个组成部分:一个强大的图像编码器一个有效的提示编码器一个轻量级的可融合两组编码器信息源的分割解码器,模型的输入包括图片和分割提示,提示的内容涵盖点、框、掩码、文字的形式,一个图片可以被多种提示复用训练,一个提示允许预测多个分割掩码应对歧义提示。

    论文中使用预训练VIT模型作为图片编码器,对密集的掩码提示做卷积处理,对点和框用位置编码表示,对文本提示用CLIP的文本编码器处理,基于DETR的启发,设计了带有动态掩码预测的Transformer Decoder模块,对于模糊的提示,模型可以预测单个提示的3个掩码输出,包括整体,部分,子部分。模型的预测速度在cpu上可达到50毫秒分割单张图片,基本可以实现实时实时、无缝的交互体验

(3)数据

     大规模的数据量无疑是支撑大模型训练的硬性要求,在线获取的海量数据缺少mask的标注,并不能像NLP那样清洗数据后直接利用,因此提出一种“数据引擎”的模式,将人工标注与模型训练过程中的预测标注巧妙结合,通过辅助手动、半自动、全自动的三步走方式,让模型先在开源及传统人工标注的数据集上做训练,再对模型预测的掩码结果做人工修正后,构建半自动数据集继续做模型优化,最后完全依赖模型自动标注分割掩码,最终收集到的数据集涵盖了不同国家和地区,mask是高质量并且具有多样性的。

     SAM的可贵之处在于拥有更高的眼界,不再局限于解决某一个或某几个任务,而是关注一套可泛化的任务形式,它具有非常强的可移植性,提示工程的设计理念让他能够十分灵活的嵌入到其他任务体系中,比如与文本指令的结合、与目标检测输出位置框的结合、与AR眼睛注视范围的结合等,提示+组合的模式会成为强大的工具,将会开启视觉领域更多精彩的应用。同时公开的SAM的预训练模型以及数据集SA-1B,这份资源将快速推动分割领域更上一层楼。

     相比于NLP方向的暴力堆叠数据和扩大模型,视觉大模型似乎在走一条更加理智的道路,可以看到SAM并没有在模型上过多发力,而是取其精华、巧妙融合提示工程,同时用数据引擎极大程度的解放了人工劳动,再一次感叹数据的魔力。交互式的分割体验也让人眼前一亮,期待更多视觉大模型的在线切磋,我们虽然没有足够的钞能力支撑训练,但如何花式应用、怎样融合、思考可落地的方案,在下游场景中仍有很大的发挥空间。 

对应论文和教程以及学习路线图

免费领取方式

关注UP主“ 迪哥谈AI

直接发送 “SAM”  

还有一种免费领取方式

看评论区 


CV不存在?视觉大模型SAM—万物皆可分割,强到离谱!的评论 (共 条)

分享到微博请遵守国家法律