VideoBERT
通过BERT学习text-to-video和video-to-text任务;
视觉文本对齐处理;
3种masked learning,text-only, video-only和text-video。