欢迎光临散文网 会员登陆 & 注册

双流网络论文逐段精读【论文精读】

2022-03-16 16:36 作者:小清舍  | 我要投稿

论文:Two-Stream Convolutional Networks for Action Recognition in Videos

论文地址:https://proceedings.neurips.cc/paper/2014/file/00ec53c4682d36f5c4359f4ae7bd7ba1-Paper.pdf

视频理解开山之作:双流网络(Two-Stream Convolutional Networks)

从双流网络——TSN——I3D——slow fast——video transformer(time transformer)

视频本身是一个很好的数据来源,比2D的单个图像包含更多的信息,比如有物体之间移动的信息,和长期的时序信息和音频信号,非常适合做多模态学习

人眼看到的信号也是连续的以视频形式展现的,而不是一个又一个静止的图片

因此如何更好地利用视频数据做视频理解有可能是通向更强的人工智能的必经之路


2022.2.9特斯拉总监Andrej Karpathy 发表推特说计算机视觉现在的研究有一点停滞不前在进入2D纹理识别的局部minimum上,大家都是在ImageNet和COCO上刷分,很卷了,堆了一大堆数据,用了很大的模型挑了很多的参数,但长的点比较少,现在有点像AlexNet之前用传统手工特征去做视觉时候得感觉,花费大功夫可能也就长0.5-1个点

这虽然并不是不好但是这只是第一步,解锁更长足的进步需要一个新的框架,训练的数据来源一定得是视频,而不是去网上爬单个的图片

因此视频理解是一个很好的研究方向且非常有前景


双流网络为什么是开山之作?双流网络并不是第一篇把深度学习用到视频分类任务上的,在2014早期CVPR就有一篇文章Deep video把深度学习应用到视频分类上,而且提出了一个巨大数据集:Sports One Million(100万个视频)

但是最后训练出来的神经网络差强人意,在当时常见的几个数据集上训练之后效果甚至还不如之前手工设计的几个特征

双流网络是第一个能让卷积神经网络的效果和之前基于最好的手工特征的方法打成平手,让大家了解不是深度学习解决不了视频理解,而是之前打开的方式不对,从此在视频理解领域,深度学习的方法基本也就是占主流地位,所以将双流网络称为视频理解领域的开山之作


文章总体架构

文章收录与2014年的neurons

正文内容8页(arXiv版本无页数限制加了两张图)


论文写作中规中矩,上来先半页摘要

阐述3页,1页篇幅实现细节

但目前网络结构复杂使用的trick,数据增强越来越多

现在常规操作都是大家简单地在正文里提一下,具体实现细节放到补充材料中


正文

双流卷积神经网络用来做视频动作识别

更有实际指导意义,数据集更好收集

双流网络顾名思义使用两个卷积神经网络

作者来自VGG组,大佬,还有另外一篇巨作VGG-Net



对于2D图像分类任务来说,当给予单张图片作为输入,将他扔给一个卷积神经网络就可以,经过几层conv然后几层fc,最后得到一个分类结果

但当输入为一个视频,有很多连续的帧,将怎样利用卷积神经网络呢

早期方法是从视频抽一些关键帧,然后将这些帧一个一个通过卷积神经网络,然后将结果合并起来

作为整体的一个输入扔进卷积神经网络然后在网络做一些early fusion或者late fusion达到时空学习的效果,但是这些工作的效果都差强人意,甚至比不上之前手工设计的文章


本文双流网络作者发现一个比较有趣的现象,之所以用一个神经网络无法处理好这种视频问题是因为卷积神经网络比较擅长去学习局部的特征而不擅长学习视频之中这种物体的移动规律

作者想如果卷积神经网络无法处理这种运动信息motion information,那就先抽取好运动信息即文中图提到的多帧光流抽取,只需要神经网络学从最开始的输入光流到动作分类之间的映射就可以

学习这种映射是深度卷积神经网络最擅长的事情,通过一系列矩阵乘法学习输入到输出之间的映射关系


作者将关注空间信息神经网络称为空间流卷积神经网络,把关注Motion-information的卷积神经网络称为时间流神经网络

空间流的输入是一张单帧的图片,最后给一个分类的概率

时间流的输入是一系列的光流图片,最后也给一个分类的概率

最后作者将两个概率做加权平均得到最终的预测 ,以上就是双流网络的结构


光流(optical flow):光的流动,光是怎么改变的

光流描述的是观察者和场景之间各种物体这种运动,其实就是视频里各个物体之间是怎么运动的


光流可视化:图左边是视频前后两帧叠加在一起,一个*****,背景不动人在动,当用一些光流预测算法把这个光流预测出来的时候,可以看到右图整个背景是黑色的,什么值都没有因为光没有流动背景是没有变,只有前景人在动,所以光流很准确的捕捉到了人的运动,运动越明显的地方颜色越亮,代表运动幅度越大

光流是一个非常有效的描述物体之间运动的一个特征表示

通过提取光流可以把背景不必要的噪声包括人的穿着、性别全都忽略,最后提取到的特征完全是专注这个动作本身的,可以很好地描述这个运动信息


双流网络把神经网络的短板补上了:学不好物体的运动信息,将抽好的运动信息的特征直接给出,只要学习映射就好,因此性能大大提升


细读

本篇研究如何使用深度卷积神经网络去做视频里的动作识别,主要难点在于如何能同时学到两种信息

一种是从静止的图像获得外观信息如物体形状、大小、颜色,场景信息

另一种是物体之间的移动信息或者想象为物体的时序信息

这两种信息对视频理解来说都至关重要

作者想把之前最好的手工特征中蕴含的思想带入到深度学习这种数据驱动的框架之中来从而技能学到apperance信息又能学到motion信息

双流网络论文逐段精读【论文精读】的评论 (共 条)

分享到微博请遵守国家法律