欢迎光临散文网 会员登陆 & 注册

深度学习0基础集训营

2023-02-22 13:37 作者:抽抽一生恋  | 我要投稿

VisualBERT

  1. Embedding有3种:视觉bounding region,区分视觉和文本的segment embedding和视觉和文本对齐的position embedding;

  2. 用了多种fusion方式,实验结果显示early-fusion最好。

ViLBERT:双流模型,每个模态先进入自己的TRM(transformer block),再做模态交叉Co-TRM(co-attentional transformer)。


深度学习0基础集训营的评论 (共 条)

分享到微博请遵守国家法律