TimeSformer 自用笔记

2023-03-23 21:43 作者:flow___ 0人读过 | 我要投稿

Timesformer

Is Space-Time Attention All You Need for Video Understanding? - 2021

Video Transformer还未遍地开花时的早些时候的文章，做的实验比较详尽。r2+1d的原班人马，把ViT向视频领域（Video Transformer）迁移的初步尝试，且逐渐可以用于处理视频长度超过1分钟的视频，作者做了下述5种尝试。

最左边一列起，只在当前帧内自己做，与时间维度无关。
和相邻的所有帧都做自注意力，很明显这是不可行的，需要的显存和计算量都太大。
先在在帧内做全局的自注意力，然后维度降下去后帧间再做时序上的自注意力操作，有点类似于CNN+LSTM做视频的感觉，把问题变成2+1维的模式，计算复杂度应该是从H^2*W^2*D^2 减到 H^2*W^2 + D^2。
这里和SwinTransformer很像，分patch做子注意力操作，减少的是帧内的自注意力计算的复杂度。
这里也是减少的帧内的自注意力计算的复杂度，类似于分成3个1*1卷积在做计算，这样的复杂度将会变得很低很低