深度学习人工智能Paper年度会员(多模态方向)
多模态数据集+ 之眼预训练任务汇总
模型数据集预训练任务ALBEF图文对:COCO,VG,CC,SBU CaptionITC, MLM,ITMCLIP400million 网络公开数据集对比学习UniT视觉/文本单模态和多模态的8个数据集基于8个数据集的7个任务,包含目标检测,VQA,NLUVx2TEXT视频用Kinetics,音频使用AudioSetTVQA, AVSD,TVCUNIMO文本:BookWiki and OpenWebText;
图片:OpenImages,unlabeled COCO;
图文对:COCO,VG,CC,SBU Caption对比学习,MLM,MRM