深度学习三维人体重建科研小班2期
Image-text retrieval
包含IR和TR。
数据集:Flickr30K + COCO
实验方案:在2个数据集上分别做fine-tune,以及在COCO上做fine-tune,在Flickr30K上进行zero-shot检索。Visual Entailment(SNLI-VE)
预测图片和文本之间的关系是entailment,neutral还是contradictory。
实验方案:借鉴UNITER,将VE任务视为3分类,用[CLS]做类别预测。VQA
给定图片和问题,生成答案。
实验方案:接入6层的transformer-decoder用来做答案生成,用[CLS]做decoder的输入,[SEP]作为终止符。

