TimeSformer 自用笔记
Timesformer
Is Space-Time Attention All You Need for Video Understanding? - 2021
Video Transformer还未遍地开花时的早些时候的文章,做的实验比较详尽。r2+1d的原班人马,把ViT向视频领域(Video Transformer)迁移的初步尝试,且逐渐可以用于处理视频长度超过1分钟的视频,作者做了下述5种尝试。


最左边一列起,只在当前帧内自己做,与时间维度无关。
和相邻的所有帧都做自注意力,很明显这是不可行的,需要的显存和计算量都太大。
先在在帧内做全局的自注意力,然后维度降下去后帧间再做时序上的自注意力操作,有点类似于CNN+LSTM做视频的感觉,把问题变成2+1维的模式,计算复杂度应该是从H^2*W^2*D^2 减到 H^2*W^2 + D^2。
这里和SwinTransformer很像,分patch做子注意力操作,减少的是帧内的自注意力计算的复杂度。
这里也是减少的帧内的自注意力计算的复杂度,类似于分成3个1*1卷积在做计算,这样的复杂度将会变得很低很低

。

最后文章选用的第三种方案。
小结: Transformer在视觉视频领域的扩展性和稳健性都是极佳的,而且视频本身就是一个多模态的信号,其中可以提取深度图,光流图,音频信号等等,部分互联网视频甚至也会有字幕,可以可以设计成各种各样的自监督信号,如果使用恰当,就能获得不错的成果。