深度学习多模态实战班2期
一个文本编码器,文本编码器可以是transformer。
一个图像编码器,图像编码器可以是resnet50或vision transformer(ViT)等
通过无监督的对比学习预训练将文本和图像联系起来
下图(2) (3)则是利用预训练好的模型进行零样本(zero shot)的文本分类
将所有labels的文本通过 文本编码器进行编码
将要预测的图像通过 图像编码器进行编码
在计算 图像编码 与 所有 labels 文本编码的 内积,取内积最大的那个作为预测label。
