其中特别值得注意的一点是,clip 预训练的方式采用的在batch 内负采样的方式进行的对比学习,如下图所示:一个batch内,一个文本编码,只有与它对应的图像是正样本,其他的图像都是负样本。目标就是优化这个矩阵,希望对角线的值越大越好,矩阵其他地方的值越小越好。