欢迎光临散文网 会员登陆 & 注册

深度学习三维人体重建科研小班2期

2023-02-22 13:51 作者:代号7264  | 我要投稿
  1. Image-text retrieval
    包含IR和TR。
    数据集:Flickr30K + COCO
    实验方案:在2个数据集上分别做fine-tune,以及在COCO上做fine-tune,在Flickr30K上进行zero-shot检索。

  2. Visual Entailment(SNLI-VE)
    预测图片和文本之间的关系是entailment,neutral还是contradictory。
    实验方案:借鉴UNITER,将VE任务视为3分类,用[CLS]做类别预测。

  3. VQA
    给定图片和问题,生成答案。
    实验方案:接入6层的transformer-decoder用来做答案生成,用[CLS]做decoder的输入,[SEP]作为终止符。


深度学习三维人体重建科研小班2期的评论 (共 条)

分享到微博请遵守国家法律