NLVR图文是否匹配。实验方案:设计text-assignment(TA)任务,给定2张图一个文本,模型做3分类,判断文本和其中哪张图片相关or都不相关。和SOTA相比,提升了3.84%。
VG(visual grounding)根据文本描述,找到图上位置。数据集:RefCOCO+ dataset实验方案:是弱监督式学习,没有bounding box。推理时,用Grad-CAM做热力图,对检测的proposal做排序。