2.structure of knowledge for semantic segmentation
2023年3月27日08:36:23
DeepLab系列(DeepLabv1、DeepLabv2、DeepLabv3和DeepLabv3+) 2014,
FCN 2015,
unet 2015,
SegNet 2015,
GCN 2016,
ENet 2016,
-PSPNet(Pyramid Scene Parsing Network)2017,
-Mask R-CNN 2017,
DFN 2018,
BiSeNet 2018,
RedNet 2018,
RDFNet 2020 ,
DFANet 2021,
DeepLab 2014
DeepLabv1 2014, DeepLabv2 2016, DeepLabv3 2017, DeepLabv3+ 2018,
解决了空间上下文信息不足的问题,
v1引入空洞卷积来增加感受野,
v2结合了空洞卷积和多尺度金字塔来进一步增加感受野大小和多尺度特征表示能力,
v3和v3+引入了可变性卷积和全局上下文信息进一步提高语义分割的准确性;
缺陷是计算量大、训练和调参难度较高。
FCN 2015
解决了传统图像分割无法处理不同大小的输入图像的问题,
引入了全卷积网络将图像转换为密集预测的像素标签;
处理多类别分割任务的表现相对较差,
由于网络缺乏跨层信息的传递,难以对细节进行准确的分割,
使用简单的反卷积层进行上采样,所以对细节和边缘等细微信息的恢复不够精细。
unet 2015
解决了传统图像分割方法无法处理小目标和不规则形状的问题,
引入了U形网络结构并将特征图进行跳跃连接;
网络结构比较简单,难以处理较复杂的场景,
对细节的把握能力也有一定局限性。
SegNet 2015
解决了全卷积网络存在的模糊分割的问题,
引入了最大池化索引进行上采样,提高了分割的准确性;
网络结构简单,难以处理复杂场景,对细节把握能力较弱。
GCN 2016
解决了全卷积网络难以处理稀疏图像的问题,
引入了全局上下文信息,提高了分割的准确性;
对分辨率较高的图像和复杂场景处理效果较差,且容易过拟合。
ENet 2016
轻量级模型,使用分支并行结构和深度可分离卷积,以减少模型的参数数量和计算复杂度;
由于模型解构的简单化,语义分割性能相对较弱。
PSPNet 2017
解决了全卷积网络难以获取全局信息的问题,
引入了金字塔池化机制,从不同尺度上提取全局特征;
由于金字塔池化机制,导致计算量和内存占用较大,处理大规模高分辨率图像时较为困难。
Mask R-CNN 2017
解决了目标检测和语义分割之间的关联问题,
引入了区域提取网络和融合特征金字塔等技术,
将目标检测和实例分割结合,能够能使输出目标的类别、位置和掩码信息,
是一种高效、准确的语义分割方法;
网络结构复杂,需要较长的训练时间和较大的计算资源。
DFN 2018,
基于深度特征融合,
将多个分辨率的特征图融合起来,以提高准确性和稳定性;
特征融合模块会增加计算复杂度,
同时需要对模型进行精细的调参。
BiSeNet 2018
基于分割网络级联,使用级联解构分别处理全局和局部特征,
同时使用注意力机制提高分割的准确性;
处理高分辨率图像出现较大的计算误差。
RedNet 2018
基于残差网络,采用了红色残差块(red block)来提高特征表示能力和分割准确性;
但需要更多的计算资源和参数量。
RDFNet 2020
基于循环解码和特征融合,
采用了循环解码网络和注意力机制来融合多尺度特征,
并引入了一个特征融合模块来提高分割精度;
虽然可以更好地处理复杂的场景和背景,但需要更长的训练时间和更大的计算资源。
DFANet 2021
基于双重注意力机制,采用了通道和空间注意力机制来增强特征表示能力,
并引入了一个反卷积网络来提高分割精度;
虽然可以更好地处理物体之间的遮挡和重叠,但计算量相对较高。