欢迎光临散文网会员登陆 & 注册

深度学习多模态科研小班第一期

2023-02-22 13:36 作者:bili_1361983162 0人读过 | 我要投稿

Unicoder-VL

目的：构建图片和长序列的联合表征的预训练模型；
提取的100个region feature 和文本 concat一起，进入multi-layer transformers。

VisualBERT

Embedding有3种：视觉bounding region，区分视觉和文本的segment embedding和视觉和文本对齐的position embedding；

标签：

深度学习多模态科研小班第一期的评论 (共条)