深度之眼多模态实战班
特征提取:
视觉的提取,大多用的是Faster R-CNN:
1.1 直接提取视觉向量;
1.2 进行目标检测,输出bounding box和对应位置;
1.3 进行目标检测,提取类别特征。
潜在问题:提取的信息有冗余和噪音,对下游任务有益的视觉信息没有被有效提取,和对应的文本信息有语义鸿沟,不好做视觉-文本对齐等。文本一般会用BERT或者Roberta做初始化,大规模训练集会从头开始训练。
Early fusion:特征提取后,一般是直接concat,进入transformer;
Late fusion:特征提取后,模态内部再进行深度学习,再做模态交互。