极市直播回放第105期丨NeurIPS 2022 Spotlight-童湛：基于掩码和重建视频自监督预训练

2022-12-06 11:47 作者:极市平台 0人读过 | 我要投稿

目前最先进的视觉自注意力模型 (Vision Transformer)通常需要先在超大规模的图像或者视频数据集上进行预训练, 才能在相对较小的数据集上展示出卓越的性能。如何在不使用任何其他预训练模型或额外图像数据的情况下，从视频数据自身中有效地训练Vision Transformer，仍然是一个没有被解决的问题。与图像数据集相比，现有的视频数据集的规模相对更小，这进一步增加了直接在视频数据集上训练Vision Transformer的难度。

在本次分享中，我们邀请到了腾讯AI Lab研究员童湛，将主要介绍他们在这个问题上的探索工作：

VideoMAE: Masked Autoencoders are Data-Efficient Learners for Self-Supervised Video Pre-Training（NeurIPS 2022 Spotlight）

“其中，我们尝试利用掩码式自监督预训练的方式对Vision Transformer进行预训练。进一步地，我们设计了一种带有极高掩码比率的管道式掩码策略，并且提出了视频掩码自编码器（VideoMAE），释放Vision Transformer在视频理解相关任务上的强大表征能力。”

极市平台公众号后台回复“极市直播”即可获取PPT

➤论文

VideoMAE: Masked Autoencoders are Data-Efficient Learners for Self-Supervised Video Pre-Training（NeurIPS 2022 Spotlight）

论文链接：https://arxiv.org/abs/2203.12602

代码地址：https://github.com/MCG-NJU/VideoMAE

➤回放视频在这里☟

https://www.bilibili.com/video/BV1HP411K7nD

➤PPT内容截图（极市平台公众号后台回复“极市直播”即可获取PPT）