欢迎光临散文网 会员登陆 & 注册

深度学习多模态科研小班第一期

2023-02-22 13:36 作者:bili_1361983162  | 我要投稿

Unicoder-VL

  1. 目的:构建图片和长序列的联合表征的预训练模型;

  2. 提取的100个region feature 和文本 concat一起,进入multi-layer transformers。

VisualBERT

  1. Embedding有3种:视觉bounding region,区分视觉和文本的segment embedding和视觉和文本对齐的position embedding;


深度学习多模态科研小班第一期的评论 (共 条)

分享到微博请遵守国家法律