欢迎光临散文网会员登陆 & 注册

深度学习0基础集训营

2023-02-22 13:37 作者:抽抽一生恋 0人读过 | 我要投稿

VisualBERT

Embedding有3种：视觉bounding region，区分视觉和文本的segment embedding和视觉和文本对齐的position embedding；
用了多种fusion方式，实验结果显示early-fusion最好。

ViLBERT：双流模型，每个模态先进入自己的TRM(transformer block)，再做模态交叉Co-TRM(co-attentional transformer)。

标签：

深度学习0基础集训营的评论 (共条)