【深度学习】图像分割全能实战分割—Mask2Former,草履虫都说简单~
图像分割是计算机视觉一个常见的领域分支,任务目标是训练模型能够根据不同的语义信息,区分并聚集起相同语义对应的像素点。它主要有三个方向:语义分割、实例分割、全景分割,每个方向都有各自的模型。Mask2former通过多尺度、可变形、多头自注意力机制以及带二元掩码的交叉注意力机制,实现了一个模型适用于分割的三种任务,基于Transformer的一套组合拳,让分割算法出现了统一化的趋势。

资源已经整理好了,文末附下载方式!以下是详细内容介绍~
语义分割的本质是逐个像素点的分类,同一物体的不同实例不需要做区分。如下图所示,一共有四种类别,模型需要对每个像素点给出一个类别结果。

实例分割的本质是物体检测+语义分割,需要区分出同一物体的不同实例。如下图所示,不同的羊采用不同的颜色作为单独的实例,同时可以观察到,相比于语义分割,实例分割并不会关注背景。

全景分割的本质是语义分割+实例分割,不仅需要区分同一物体的不同实例,同时需要分割背景

Mask2former的网络结构如下图所示,主要包含三个阶段:基于Backbone的多层级特征提取、基于多层级可变形自注意力机制的像素级解码器、基于mask的多头交叉注意力机制的解码器,下面对三个部分分别展开具体介绍。

(1)基于Backbone的多层级特征提取
采用残差网络Resnet作为基础的特征提取器,返回四个stage的层级特征。
(2)基于多层级可变形自注意力机制的像素级解码器
将Backbone得到的三个高层级特征做有标记的拼接后送入解码器,将循环执行六组“self-attn+norm+ffn”的组合模块,可变形注意力机制需要额外预测位置偏移量和位置权重,根据位置偏移量对采样点的位置特征校正后,与位置权重做点积得到更新后的特征。
下图所示是可变形注意力的计算过程,其中zq代表加入了位置编码的query特征图,pq是相对于左上的位置坐标,x代表要重构的value特征,pmqk是预测的位置偏移量,Amqk是预测后归一化至0-1之间的采样点的权重,M是指多头,W指全连接的权重,K是指需要采样的关键点数量。

(3)基于mask的多头交叉注意力机制的解码器
对于Backbone输出的最浅层特征,与经过上采样的Pixel Decoder输出的次浅层特征做加法,再经过全连接后得到mask特征,将mask特征,初始化的query特征,Pixel Decoder的输出特征作为Transformer Decoder的部分输入,先执行masked attention,也就是带有mask的交叉注意力机制,再执行自注意力机制等常规操作,源码中该模块循环了九组。
其中分类的预测以及mask_embed都是由初始化的query特征做全连接得到,而attn_mask则由mask_embed与mask特征相乘后并做重采样得到。从下图公式中可以看出,与常规的注意力机制计算过程相比,mask的加入让query只关注预测掩码的前景区域。



Mask2Former的改进点主要体现在四个方面:一是充分利用了多尺度特征,将特征金字塔与Transformer有效结合,高分辨率特征优化了对小目标的分割效果;二是在Transformer Decoder中更换自注意力和交叉注意力的顺序,加速模型的收敛并提高性能;三是mask loss只计算K个采样随机点而不是整张图,节省了三倍的训练内存;四是基于mask交叉注意力机制使得模型只关注前景间的注意力,不需要背景的参与,大大缩短了训练时间。

从上面的分析中可以看出,Mask2Former是个体量较大的模型,主体都是Transformer的系列变形,同时融合了多头、多尺度、可变形、掩码四大常见技巧,可以称得上是集百家之大成了,一套组合拳不仅统一了分割的三大任务,还都能有出色的效果表现。由此可见缝合的策略虽然看似简单,但的确是奏效的,积累整合优秀算法模型的改进点是十分重要的,未来的思路灵感主要来源于此,与此同时更需要大胆的组合尝试,唯有实践是检验真理的唯一标准。
以上对应的学习教程和论文已打包好

免费领取方式
关注UP主“ 迪哥谈AI ”
直接发送“ 教程”
即可获取下载链接

还有一种免费领取方式
看评论区

