欢迎光临散文网 会员登陆 & 注册

深度之眼多模态实战班笔记

2023-05-23 12:25 作者:自爆鬼才比企谷  | 我要投稿

CLIP 模型

CLIP(Contrastive Language–Image Pre-training )是由OpenAI开源的基于对比学习的大规模图文预训练模型,其整个架构如下图(1)所示:

  • 一个文本编码器,文本编码器可以是transformer。

  • 一个图像编码器,图像编码器可以是resnet50或vision transformer(ViT)等

  • 通过无监督的对比学习预训练将文本和图像联系起来

下图(2) (3)则是利用预训练好的模型进行零样本(zero shot)的文本分类

  • 将所有labels的文本通过 文本编码器进行编码

  • 将要预测的图像通过 图像编码器进行编码

  • 在计算 图像编码 与 所有 labels 文本编码的 内积,取内积最大的那个作为预测label。

其中特别值得注意的一点是,clip 预训练的方式采用的在batch 内负采样的方式进行的对比学习,如下图所示:一个batch内,一个文本编码,只有与它对应的图像是正样本,其他的图像都是负样本。目标就是优化这个矩阵,希望对角线的值越大越好,矩阵其他地方的值越小越好。


深度之眼多模态实战班笔记的评论 (共 条)

分享到微博请遵守国家法律