深度学习多模态科研小班第一期
2023-02-22 13:36 作者:bili_1361983162 | 我要投稿
Unicoder-VL
目的:构建图片和长序列的联合表征的预训练模型;
提取的100个region feature 和文本 concat一起,进入multi-layer transformers。
VisualBERT
Embedding有3种:视觉bounding region,区分视觉和文本的segment embedding和视觉和文本对齐的position embedding;

