欢迎光临散文网 会员登陆 & 注册

【花师小哲】鉴定网络热门(?)AI(9)——单阶段or两阶段,这是大一统CV分割的问题

2023-04-17 13:56 作者:花师小哲-中二  | 我要投稿

SAM模型其实也刚出来没多久,马上接续研究就来了。在能做到“分割一切”之后,下一步要做的就是开放域语义分割

Meta在SAM的基础上做了OV-seg,微软也做了SEEM。它们都是语义分割模型。而且,没想到吧,两者都是在COCO数据集上来做的(不知道是不是商量好要battle的)。

不过,最近一篇调查论文刚刚调查了SAM模型的一些不足:

这里也不展开了,直接上今天的两个主角:

SAM的接续研究——OVseg
微软的SEEM

0.先验知识

这里稍微增加一些前情提要吧,可以去看以下一些论文:

【花师小哲】鉴定网络热门(?)AI(8)——计算机视觉也要终结了?

【花师小哲】当代炼金术(神经网络)前沿(20)——CLIP:打破原图片分类范式

1.开放域语义分割

图片分割大家可能都清楚(不清楚的请看上面链接的SAM哦),就是把一张图片的不同物体用不同颜色划分出来(根据四色定理,理论上四种颜色就够了):

但是大家有没有发现一个问题,SAM确实做到了分割,但输出结果是没有语义的,也就是你不知道分割出来的这一块是阿猫还是阿狗。

也许你会说,SAM的输入可以是自然语言啊,例如我说“分割出图中所有的猫”

确实,这时候我们可以说这个自然语言输入(其实应该叫prompt)和输出结果是语义对齐的,但是自然语言输入不是必须的,这种情况下分割出来的东西就没有语义信息了。

语义分割的一个例子:

我们再更进一步,要做到开放域。开放域是什么意思的,即我们对于任意的语义都要适应,并不是说我事先定义只有阿猫阿狗之类的类别,然后来个螺丝我就没法输出语义标签了。

这是很有挑战的,但是ChatGPT告诉我们:我们面对什么开放域都不要怕,微笑着面对他,解决开放域最好的办法就是增大规模,加油,奥利给(bushi

2.OV-seg的两阶段方案

OV-seg的想法很简单(其实OV-seg也不一定用SAM模型),我先做不带语义的分割,然后再对分割结果做个开放域的语义标注不就好了吗?

哎,那么有没有开放域的语义标注方法呢?有的,就是CLIP。于是整体架构如下:

OV-seg的两阶段架构

这就是两阶段的方法了。

当然,CLIP是需要进行微调的,这里具体方法也不展开

3.SEEM的一阶段方案

微软SEEM的标题甚至比SAM的“segment anything”还霸气。

不同于OV-seg,SEEM的底层架构就支持开放域语义分割,而且相比于SAM,能支持的prompt更多,还可以支持多prompt组合,还可以和用户交互等:

SEEM的一阶段架构

上面一个比较有意思的例子是,对于多张图片,你可以单独在一张图片上做prompt,结果就可以用在不同的图片上(例子是第一排的倒数第2和第3张,对应下一排的倒数第2个示例)。

这是因为从底层架构上就实现了大一统和语义标签分割输出:

当然,SEEM可能是为了和SAM对抗才临时做的,所以不像SAM有丰富的数据集

4.CV大一统,CV终结了?

下这个结论肯定是为时过早了,自古以来走开放域的(ChatGPT:我怀疑你在点名我)存在的问题,SAM也是有类似的,例如对于不常见的物体、不常见的视角、需要专业知识的图像(例如医学),SAM是比不过一些领域模型的。

5.一阶段还是两阶段

谁好谁坏还不能下定论。

例如其他领域的关系抽取(例如从“小明的母亲是小红”,可以提取出小红和小明是母子关系),传统方法也是分两步:命名实体识别(先找出来“小明”和“小红”)和关系识别(识别他们的关系);但现在也有很多一阶段方法

反正具体谁更好就等着慢慢发展吧。

【花师小哲】鉴定网络热门(?)AI(9)——单阶段or两阶段,这是大一统CV分割的问题的评论 (共 条)

分享到微博请遵守国家法律