视频理解论文串讲(上)【论文精读】

论文:A Comprehensive Study of Deep Video Action Recognition
论文地址:https://arxiv.org/pdf/2012.06567.pdf

这是一篇综述
这里除了没有讲到video transformer基本上包含了之前用深度学习做 视频动作识别的模型

讲解按照图中时间线讲解
主要分四个部分讲
- Hand-crafted——CNN
- Two-stream
- 3D CNN
- Video transformer
Deep video CVPR2014
论文名:Large-scale Video Classification with Convolution Neural Networks
在这篇文章之前也有神经网络来做的,但是在AlexNet出现之前,使用数据集比较小,网络也比较浅
这篇文章算是深度学习时代使用卷积神经网络去处理视频理解的最早期的工作之一

方法是比较直接的,想法就是如何将卷积神经网络从图片识别应用到视频识别里面,视频和图片的区别就是多了一个时间轴,有更多的视频帧而不是单个的图片,所以自然是有几个变体是需要尝试的

Later-Fusion在网络输出层面做的一些结合
在视频中随机选几帧,每一帧单独通过一个神经网络,这两个神经网络是权值共享的,然后把得到的特征合并一下,通过FC层最后做一下输出,这个做法的本质还是单帧经过神经网络得到一个特征,像图片分类,但是最后把特征合并起来了,所以稍微有一点时序上的信息在里面
Early Fusion:在输入层面做了融合,具体做法就是把五个视频帧在RGB的channel上合起来,变成15个channel,这意味着网络的结构需要有一点改变了,第一个卷积层接收输入的通道数要变为15,之后的网络跟之前保持不变,这种做法,可以在网络的刚开始输入的层面感受到时序上的改变,希望能学到一些全局的运动时间信息
Slow Fusion:结合Late Fusion和Early Fusion
希望能够在网络学习的构成中的特征层面做一些合并会更好一些,具体做法是每次选择10个视频帧的视频段,然后每4个视频帧经过一个神经网络抽取特征,刚开始的层全局共享,抽取最开始的特征之后,由最开始的四个输入片段合并成两个片段,再做一些卷积操作获得更深层的特征,然后把特征交给FC做最后的分类,整个网络从头到尾都在对视频的整体进行学习,按道理结果应该是最好的,事实上也是最好的
结果四种方法的结果都差别不大,即使是在100万个视频上做了预训练之后,在UCF101上做迁移学习时还比不上之前的手工特征
另外一条思路,多分辨率卷积神经网络结构

把输入分成两个部分,一个是原图,另外一个从原图的正中间抠出一部分变成一个输入,因为对于图片或者视频来说最有用的或者物体都会出现在正中间,所以把上面的分支交fovea(人脸视网膜里最中心的东西,对外界变化最敏感的区域) stream,下面分支叫contex stream(图片整体信息),作者想通过这个操作既获得图片中间最有用的信息,又能学习到图片整体的理解,看看这样能不能提升对视频的理解,两个有两个网络权值共享,可看成早期对注意力使用的方式,
几种方式比较 baseline
sports-1M数据集上

UCF101上
使用那么多预训练数据和大规模网络之后
迁移结果还不如手工特征(87%)
