欢迎光临散文网会员登陆 & 注册

深度学习多模态实战班2期

2023-03-01 10:44 作者:year一人 0人读过 | 我要投稿

一个文本编码器，文本编码器可以是transformer。
一个图像编码器，图像编码器可以是resnet50或vision transformer（ViT）等
通过无监督的对比学习预训练将文本和图像联系起来

下图（2）（3）则是利用预训练好的模型进行零样本（zero shot)的文本分类

将所有labels的文本通过文本编码器进行编码
将要预测的图像通过图像编码器进行编码
在计算图像编码与所有 labels 文本编码的内积，取内积最大的那个作为预测label。

标签：

深度学习多模态实战班2期的评论 (共条)