欢迎光临散文网 会员登陆 & 注册

双流网络 自用笔记

2023-03-12 22:05 作者:flow___  | 我要投稿

Two-Stream Convolutional Networks for Action Recognition in Videos 

原文版本: arXiv:1406.2199v2 [cs.CV] 12 Nov 2014

主要:本文在当时提出用两种2d卷积神经网络网络,一个主要提取图像语义信息,一个主要提取视频的光流信息去对视频进行分类。并在当时达到了和传统方法旗鼓相当的分类水平。

个人认为有两点很重要,一个是对视频理解使用“多模态”的信息,将传统的RGB视频解析为图片序列,和光流信息,因为本身的2d卷积对于动作的变化,物品的纹理会更关注,而对于不同帧之间的异同可能不是那么敏感,而光流的提取与使用另一套神经网络去学习的这个思想,和现在流行的使用多模态信息的手段非常类似,这一点思路可以用到不同的细分任务里面,将你的任务解构,再拼接,如现一些图像恢复任务也会加入物体的语义分割图来进行辅助。

同时有一点小思考,就是视频理解,和视频方向的视觉任务将不可避免地成为主流,其连贯动作中,自然的空间变换带来的图像增强,视频包含的信息也更符合现实直觉等等...如何充分利用视频里的信息,是我们需要学习的。

两个分别处理不同种类信息的神经网络如上图

网络架构没什么好说的,和简单的AlexNet很像。

重点是在于光流 —— Optical flow,这个可以自行了解什么是光流。本文提出了两点光流手段,一个是直接将帧与帧之间形成的光流进行叠加后输入网络,实际上都是在对应的同样的点的位置上去取得光流,对于每个光流图来说,每次都去问“这个位置的点”下一帧是往什么方向走了,不需要关心这个点的前后帧的动向(可以理解成不关心时序信息?);另种则是根据光流的轨迹,在轨迹上进行光流数值的叠加,也就是更充分去看物体在整个流程中的“流动方向”。还有一种“Bi-directional optical flow”结构,是另一种光流的计算方式,是增加信息,更为保险的操作,类似于bert,等中的冗余信息,用增加信息冗余度去换涨点。

本文中使用的第一种光流信息,因为实际实验效果会好一些,作者也不太明白道理,并未跟进做更多的实验,但是直觉上说第二种效果会更好。(后续的其他作者的工作也证明了第二种能拿到的语义信息更为丰富,取得了更好的效果)。

两种光流的计算方式

最后使用的是非常简单的将两个最后的权值做softmax后取平均,换成现在,是不是也可以换成一个类似于Transformer中的的Attention操作呢。

双流网络是视频分类与理解领域的开山之作,其提出的“光流信息的使用”在现在很多视觉任务中仍然经常使用,需要了解!

双流网络 自用笔记的评论 (共 条)

分享到微博请遵守国家法律