欢迎光临散文网会员登陆 & 注册

深度学习三维人体重建科研小班2期

2023-02-22 13:51 作者:代号7264 0人读过 | 我要投稿

Image-text retrieval
包含IR和TR。
数据集：Flickr30K + COCO
实验方案：在2个数据集上分别做fine-tune，以及在COCO上做fine-tune，在Flickr30K上进行zero-shot检索。
Visual Entailment(SNLI-VE)
预测图片和文本之间的关系是entailment，neutral还是contradictory。
实验方案：借鉴UNITER，将VE任务视为3分类，用[CLS]做类别预测。
VQA
给定图片和问题，生成答案。
实验方案：接入6层的transformer-decoder用来做答案生成，用[CLS]做decoder的输入，[SEP]作为终止符。

标签：

深度学习三维人体重建科研小班2期的评论 (共条)