欢迎光临散文网会员登陆 & 注册

深度之眼多模态实战班

2023-03-14 11:11 作者:清卫怡 0人读过 | 我要投稿

特征提取：

视觉的提取，大多用的是Faster R-CNN：
1.1 直接提取视觉向量；
1.2 进行目标检测，输出bounding box和对应位置；
1.3 进行目标检测，提取类别特征。
潜在问题：提取的信息有冗余和噪音，对下游任务有益的视觉信息没有被有效提取，和对应的文本信息有语义鸿沟，不好做视觉-文本对齐等。
文本一般会用BERT或者Roberta做初始化，大规模训练集会从头开始训练。

Early fusion：特征提取后，一般是直接concat，进入transformer；
Late fusion：特征提取后，模态内部再进行深度学习，再做模态交互。

标签：

深度之眼多模态实战班的评论 (共条)