与SENet互补提升,华为诺亚提出自注意力新机制:Weight Excitation|ECCV2020
注意力机制、动态卷积最近几年被研究得非常透了,不过前述方法大多聚焦于特征图层面,而该文则是从权值角度出发提出了一种非常有意思的机制。该文所提方法仅作用于训练阶段,不会对推理造成任何的计算量消耗、网络结构改变,同时可取得媲美SE的性能提升,更重要的是它可以与SE相互促进。

论文地址:
http://www.ecva.net/papers/eccv_2020/papers_ECCV/papers/123750086.pdf
Abstract
该文提出一种新颖的方法,用于在训练阶段同时判别卷积神经网络权值的重要性并对重要权值赋予更多的注意力。更确切的讲,作者针对权值从两个方面进行重要性分析:幅值与位置。通过在训练阶段分析权值的上述两种特性,作者提出了两种独立的Weight Excitation
(权重激励)机制。作者通过实验证实:在主流ConvNet上,在多个CV应用中,采用WE方法可以取得显著性能提升(比如在ImageNet分类任务上,可以提升ResNet50的精度达1.3%),而且这些改进不会造成额外的计算量或者网络结构调整。此外,只需很少的几行代码即可将其嵌入到卷积模块中。更重要的是,WE可以与其他注意力机制(比如SE)取得互补作用,进一步提升性能。
该文的主要贡献包含以下几点:
提出两种关于权值的特性用于刻画每个权值的重要性;
提出两种新颖的权值再参数化机制:通过调整反向传播梯度对重要权值赋予更多注意力,作者将这种训练机制称之为权值激励训练;
在多个任务(ImageNet、Cifar100分类任务,VOC、Cityscapes语义分割以及手势识别、姿态识别等)、多个ConvNet架构上验证了所提方法的优异性能。
Method
在这部分内容中,我们先来看探索一下权值重要性与幅值、位置的关系;然后再看了解一下作者所提出的权值再参数化方法。注:作者将位置相关的方法称之为LWE(location-based WE),将幅值相关的方法称之为MWE(Magnitude-based WE)。
Investigating the importance of weights
为探索权值的重要性,作者进行了权值影响的系统性分析(通过将权值置零)。作者研究了关于权值的两种特性:幅值和位置。为更好说明两者的重要性,作者采用ImageNet数据集上预训练ResNet50进行相应数据分析。

Weight Magnitude。为探索权值幅值的重要性,作者通过如下流程进行了分析(结果见上图):
对于每个卷积权值按照绝对值进行升序排序;
将不同百分位的权值置零并记录模型性能下降情况。从上图可以看到:更高百分位的权值(即权值幅值更大)置零导致的性能下降更严重,这也就说明了权值的重要性随幅值变大而变大。


Location-based weight excitation

与之对应的LWE结构如下图a所示,有没有觉得挺简单的呀,嘿嘿。

Magnitude-based weight excitation

此外需要注意的是:对于LWE或MWE的输入权值,作者先进行了归一化,而这一操作可以导致ConvNet性能的轻微提升。注:WE仅作用于训练阶段,而不会造成推理阶段的额外计算量或网络架构调整。
Experiments
为说明所提方法的有效性,作者在ImageNet分类、VOC语义分割以及Mini-Kinetics姿态识别等任务上进行了验证。
直接上结果了,ImageNet任务上的性能对比见下图。可以看到:在主流ConvNet上(如MobileNetV2、ResNet50、ResNeXt50、ResNet152-SE,Wide ResNet50)均可得到一致性的性能提升,且MWE的性能增益要比LWE增益低。作者同时发现:LWE对于深度分离卷积的增强并不好,这也是该方法的一个局限所在。与此同时,作者还将所提方法与其他注意力机制进行了对比,见下图b。相比SE,LWE的一个优势在于:提供同等性能增益同时具有更少的训练消耗、无需额外的推理消耗。


与此同时,作者还对比了所提方与其他规范化(如BatchNorm、GroupNorm)技术的性能差异。

最后,我们再来看一下所提方法在不同任务、不同架构上的性能增益对比,见下表。很明显,采用WE机制训练的模型均可得到一定程度的性能提升。

全文到此结束,更多实验结果与分析详见原文,建议各位同学去查阅一下原文。