欢迎光临散文网 会员登陆 & 注册

TimeSformer 自用笔记

2023-03-23 21:43 作者:flow___  | 我要投稿

Timesformer

Is Space-Time Attention All You Need for Video Understanding?  - 2021

Video Transformer还未遍地开花时的早些时候的文章,做的实验比较详尽。r2+1d的原班人马,把ViT向视频领域(Video Transformer)迁移的初步尝试,且逐渐可以用于处理视频长度超过1分钟的视频,作者做了下述5种尝试。

和下图一一对应的5种自注意力计算方法
此图画的非常形象
  1. 最左边一列起,只在当前帧内自己做,与时间维度无关。

  2. 和相邻的所有帧都做自注意力,很明显这是不可行的,需要的显存和计算量都太大。

  3. 先在在帧内做全局的自注意力,然后维度降下去后帧间再做时序上的自注意力操作,有点类似于CNN+LSTM做视频的感觉,把问题变成2+1维的模式,计算复杂度应该是从H^2*W^2*D^2 减到 H^2*W^2 + D^2。

  4. 这里和SwinTransformer很像,分patch做子注意力操作,减少的是帧内的自注意力计算的复杂度。

  5. 这里也是减少的帧内的自注意力计算的复杂度,类似于分成3个1*1卷积在做计算,这样的复杂度将会变得很低很低

上述五种模型的效果表现,注意参数来不等于计算量的增长和内存消耗

作者对比效果较好的2,3模型,其中2的计算代价太大

最后文章选用的第三种方案。


小结: Transformer在视觉视频领域的扩展性和稳健性都是极佳的,而且视频本身就是一个多模态的信号,其中可以提取深度图,光流图,音频信号等等,部分互联网视频甚至也会有字幕,可以可以设计成各种各样的自监督信号,如果使用恰当,就能获得不错的成果。


TimeSformer 自用笔记的评论 (共 条)

分享到微博请遵守国家法律