【深度学习】图像分割全能实战分割—Mask2Former，草履虫都说简单~

2023-06-07 17:30 作者:跟着唐宇迪学AI 0人读过 | 我要投稿

图像分割是计算机视觉一个常见的领域分支，任务目标是训练模型能够根据不同的语义信息，区分并聚集起相同语义对应的像素点。它主要有三个方向：语义分割、实例分割、全景分割，每个方向都有各自的模型。Mask2former通过多尺度、可变形、多头自注意力机制以及带二元掩码的交叉注意力机制，实现了一个模型适用于分割的三种任务，基于Transformer的一套组合拳，让分割算法出现了统一化的趋势。

资源已经整理好了，文末附下载方式！以下是详细内容介绍～

语义分割的本质是逐个像素点的分类，同一物体的不同实例不需要做区分。如下图所示，一共有四种类别，模型需要对每个像素点给出一个类别结果。

实例分割的本质是物体检测+语义分割，需要区分出同一物体的不同实例。如下图所示，不同的羊采用不同的颜色作为单独的实例，同时可以观察到，相比于语义分割，实例分割并不会关注背景。

全景分割的本质是语义分割+实例分割，不仅需要区分同一物体的不同实例，同时需要分割背景

Mask2former的网络结构如下图所示，主要包含三个阶段：基于Backbone的多层级特征提取、基于多层级可变形自注意力机制的像素级解码器、基于mask的多头交叉注意力机制的解码器，下面对三个部分分别展开具体介绍。

（1）基于Backbone的多层级特征提取

采用残差网络Resnet作为基础的特征提取器，返回四个stage的层级特征。

（2）基于多层级可变形自注意力机制的像素级解码器

将Backbone得到的三个高层级特征做有标记的拼接后送入解码器，将循环执行六组“self-attn+norm+ffn”的组合模块，可变形注意力机制需要额外预测位置偏移量和位置权重，根据位置偏移量对采样点的位置特征校正后，与位置权重做点积得到更新后的特征。

下图所示是可变形注意力的计算过程，其中zq代表加入了位置编码的query特征图，pq是相对于左上的位置坐标，x代表要重构的value特征，pmqk是预测的位置偏移量，Amqk是预测后归一化至0-1之间的采样点的权重，M是指多头，W指全连接的权重，K是指需要采样的关键点数量。

（3）基于mask的多头交叉注意力机制的解码器

对于Backbone输出的最浅层特征，与经过上采样的Pixel Decoder输出的次浅层特征做加法，再经过全连接后得到mask特征，将mask特征，初始化的query特征，Pixel Decoder的输出特征作为Transformer Decoder的部分输入，先执行masked attention，也就是带有mask的交叉注意力机制，再执行自注意力机制等常规操作，源码中该模块循环了九组。

其中分类的预测以及mask_embed都是由初始化的query特征做全连接得到，而attn_mask则由mask_embed与mask特征相乘后并做重采样得到。从下图公式中可以看出，与常规的注意力机制计算过程相比，mask的加入让query只关注预测掩码的前景区域。

Mask2Former的改进点主要体现在四个方面：一是充分利用了多尺度特征，将特征金字塔与Transformer有效结合，高分辨率特征优化了对小目标的分割效果；二是在Transformer Decoder中更换自注意力和交叉注意力的顺序，加速模型的收敛并提高性能；三是mask loss只计算K个采样随机点而不是整张图，节省了三倍的训练内存；四是基于mask交叉注意力机制使得模型只关注前景间的注意力，不需要背景的参与，大大缩短了训练时间。

从上面的分析中可以看出，Mask2Former是个体量较大的模型，主体都是Transformer的系列变形，同时融合了多头、多尺度、可变形、掩码四大常见技巧，可以称得上是集百家之大成了，一套组合拳不仅统一了分割的三大任务，还都能有出色的效果表现。由此可见缝合的策略虽然看似简单，但的确是奏效的，积累整合优秀算法模型的改进点是十分重要的，未来的思路灵感主要来源于此，与此同时更需要大胆的组合尝试，唯有实践是检验真理的唯一标准。
以上对应的学习教程和论文已打包好

免费领取方式

关注UP主“ 迪哥谈AI ”

直接发送“ 教程”

即可获取下载链接

还有一种免费领取方式

看评论区

标签：深度学习语义分割迪哥谈AI CV 科技图像处理人工智能科学计算机视觉图像分割

【深度学习】图像分割全能实战分割—Mask2Former，草履虫都说简单~

【深度学习】图像分割全能实战分割—Mask2Former，草履虫都说简单~的评论 (共条)

你可能也喜欢这些文章

最新发布的文章

【深度学习】图像分割全能实战分割—Mask2Former，草履虫都说简单~

本文作者的其他文章

【深度学习】图像分割全能实战分割—Mask2Former，草履虫都说简单~的评论 (共 条)

你可能也喜欢这些文章

最新发布的文章

【深度学习】图像分割全能实战分割—Mask2Former，草履虫都说简单~的评论 (共条)