撑起计算机视觉半边天的ResNet【论文精读】

论文:Deep Residual Learning for Image Recognition
BIB:@article{he2016deep,
title={Deep Residual Learning For Image Recognition},
author={he, kaiming and zhang, xiangyu and ren, shaoqing and sun, jian},
journal={2016 IEEE CONFERENCE ON COMPUTER VISION AND PATTERN RECOGNITION (CVPR)},
pages={770--778},
year={2016}
}
原文链接:https://ieeexplore.ieee.org/document/7780459
经典ResNet,现有深度卷积神经网络有一半可能性是在用ResNet或者其变种,

摘要:深度神经网络非常难训练
做了一个使用残差学习的框架来使得训练非常深的网络比之前容易很多
把这些层作为一个学习残差函数相对于层输入的一个方法,而不是跟之前一样的学习unreferenced functions
提供了很多实验证据来证明这些残差网络非常容易训练而且可以得到很好的精度特别是层增加了之后
在ImageNet数据集上使用了152层,比VGG多了8倍但是更低的复杂度,用这些残差网络做了一个ensemble之后得到了3.57%的测试精度,这个结果使他们赢得了ImageNet 2015年竞赛,也分析了在CIFAR-10训练100到1000层网络

对很多视觉的任务来说深度是非常重要的
仅仅将我们的网络换成了我们之前学习到的残差网络得到了28%的相对改进在COCO目标检测数据集上,因此赢得了ImageNet第一名的检测、定位,COCO的检测和分割

计算机视觉惯例一般会在第一页放上一张比较好看的图对问题的描述或者主要结果,越好看越好
计算机图形学可能将一张图放在标题上面,因为对图形学来说视觉更重要一点 ,开创这个风格的第一人是Randy ,CMU的一个教授
图1 左图是训练误差 右图测试误差在CIFAR-10上
用了20层和56层plain network(即没有加残差的时候)
x轴是轮数,y轴是错误率
56层更深更大的网络其误差率反而更高,训练误差和测试误差都更高
在训练更深的网络上面是训练不动的,不仅仅是过拟合,更主要的是训练误差不能达到很好的效果


图4 在ImageNet上左图没有加残差连接的时候18和34层,右图加了之后34层比18层误差更低
