欢迎光临散文网 会员登陆 & 注册

深度学习多模态实战班2期

2023-03-01 10:44 作者:year一人  | 我要投稿
  • 一个文本编码器,文本编码器可以是transformer。

  • 一个图像编码器,图像编码器可以是resnet50或vision transformer(ViT)等

  • 通过无监督的对比学习预训练将文本和图像联系起来

下图(2) (3)则是利用预训练好的模型进行零样本(zero shot)的文本分类

  • 将所有labels的文本通过 文本编码器进行编码

  • 将要预测的图像通过 图像编码器进行编码

  • 在计算 图像编码 与 所有 labels 文本编码的 内积,取内积最大的那个作为预测label。


深度学习多模态实战班2期的评论 (共 条)

分享到微博请遵守国家法律