SENet 自用论文笔记
SENet
CVPR 2018 Squeeze-and-Excitation Networks
Abstract
In thiswork, we focus on the channel relationship and proposea novel architectural unit, which we term the “Squeeze-and-Excitation” (SE) block, that adaptively recalibrateschannel-wise feature responses by explicitly modelling interdependencies between channels.
这个阶段的CNN架构可以说是越来越水了,什么squeezeNet,ResNeXt等等,简直是水到不能再水了。这篇文章还是有一点创新点的,那就是引入了类似于attention的机制,赋予每个channel一个权重,这就是标题中所说的Excitation。
Model

大致结构分为GAP和一个sigmoid激活函数,分别包含在Fsq操作和Fex操作中,同时作者指出这类操作是一个简单的计算单元,可以非常简单迁移到几乎所有其他CNN架构上。
Squeeze: Global Information Embedding
We opt for the simplest, global average pool-ing, noting that more sophisticated aggregation strategiescould be employed here as well.
这里使用了最简单的方法去做压缩Squeeze:对所有的channel取一个平均值。比如224*224*100的特征图,就将其变为一个1*1*100的向量。文章也提到这里可以使用更sophisticated的方法去取值。

The activations act as channel weightsadapted to the input-specific descriptor z. In this regard,SE blocks intrinsically introduce dynamics conditioned onthe input, helping to boost feature discriminability.
上述输出的1x1x100的向量数据再经过两级全连接(Fex操作,作者称为Excitation过程)其中第一个FC层起到降维的作用,降维系数为r是个超参数,然后采用ReLU激活。最后的FC层恢复原始的维度,最后再用sigmoid限制到[0,1]的范围,把这个值作为权重系数乘到U的C个通道上, 作为下一级的输入数据。其实整个操作可以看成学习到了各个channel的权重系数,原特征图与权重系数相乘后,把重要的特征增强,不重要的特征减弱,从而让提取的特征指向性更强。

应用:SE-ResNet
之前说了这个idea可以和其他经典CNN结合,这里作者举了两个例子,我们以ResNet为例。

可以看到SE模块是作用于最后一个输出channel的,也可以很好的和残差连接结合起来使用,并无冲突。
总结:
SENet赢得了最后一届ImageNet 2017竞赛分类任务的冠军,终于这个榜也是被刷到了超越人类识别能力的水准之上。SENet重要的一点是使用了Attention的机制,思路很简单,很容易扩展在已有网络结构中。

