欢迎光临散文网 会员登陆 & 注册

深度之眼多模态实战班

2023-03-14 11:11 作者:清卫怡  | 我要投稿

特征提取

  1. 视觉的提取,大多用的是Faster R-CNN:
    1.1 直接提取视觉向量;
    1.2 进行目标检测,输出bounding box和对应位置;
    1.3 进行目标检测,提取类别特征。
    潜在问题:提取的信息有冗余和噪音,对下游任务有益的视觉信息没有被有效提取,和对应的文本信息有语义鸿沟,不好做视觉-文本对齐等。

  2. 文本一般会用BERT或者Roberta做初始化,大规模训练集会从头开始训练。

Early fusion:特征提取后,一般是直接concat,进入transformer;
Late fusion:特征提取后,模态内部再进行深度学习,再做模态交互。


深度之眼多模态实战班的评论 (共 条)

分享到微博请遵守国家法律