欢迎光临散文网 会员登陆 & 注册

AI新技术--零标签玩转对比学习

2023-03-20 15:52 作者:跟着唐宇迪学AI  | 我要投稿

      在开展深度学习项目时,数据集的标注是一个非常庞大的工程,所谓的人工智能,先人工再智能,这里的人工指的就是手动打标签的过程,为了能够避开这份不够智能的工作,对比学习的训练模式为我们提供了新思路,这种策略不再依赖标签的引导,不受制于特定任务,让模型学会提取更加泛化的特征,可以有效迁移至各类下游任务

资料已经整理好了,文末附下载方式!以下是详细内容介绍~ 

学习资料

       对比学习属于自监督学习的范畴,以CV领域中的SimCLR算法为例,它的本质是判断异同,整体思想是将样本与其语义相近的正样本和语义差距大的负样本做对比,通过设计代理任务和目标函数,让模型主动构造正负样本并最小化目标损失,进而使语义相近的样本在表示空间中距离近,语义差距大的样本空间表示距离更远,即实现聚类中最小化类内距,最大化类间距。举例来说,对比学习目标就是希望模型知道下图中两个猫相似,而猫与狗、大象是不同的。

      SimCLR不需要人工打标签,正负样本通过数据增强的方式获得,例如图片的随机裁剪、随机颜色失真、随机高斯模糊等。数据增强的方式越丰富,网络训练面临的难度越大,在一定程度上能够更好地挖掘模型的潜力。

       如果一个批次有N张图片,经过数据增强后得到2N张,共有N对正样本,2(N-1)对负样本,这里的N通常是比较大的,原论文中是8192的批量。将增强后的图像分别送进编码器中提取特征,再经过全连接后,得到最终的特征向量并计算损失,反向传播继续训练,迁移至其他下游任务中时,预训练模型只使用前半段,全连接层的部分不参与,需要根据具体的任务需求重新设计后部分的输出头。

        算法的目的是做异同判别,需要计算特征之间的余弦相似度,损失函数是infoNCE loss,从下图公式可以看出,正样本对的距离放在分子中,分母中则包含了负样本对距离,当正样本对距离越小,负样本对距离越大,损失越小,完全符合我们任务本身的需求,这里的温度系数τ,控制了模型对负样本的区分度。

       除了数据增强,还可以通过多视角任务,给模型继续增加难度,相同样本的不同视角任务得到的特征,应该是具有较高的相似度,而不同样本的则与之相反,多视角的加入可以进一步辅助提升模型的学习力。

      BYOL也是对比学习算法的一个代表,它的思想更加尖锐,直接排除了负样本的概念,将输入样本做数据增强,并经过编码器和全连接层提取特征后,直接计算双路输出的L2损失,基本思想是对于同一个样本,即便经过数据增强,二者的本质特征仍应该是相似的。

      NLP领域中,也存在对比学习的身影,SimCSE算法采用随机的Droupout Mask策略,对同一条文本,经过模型两次随机Droupout Mask的处理,得到不同的词向量,但由于输入的文本是相同的,即便经过随机杀死神经元,我们期望两次得到的词向量的语义是相同的,因此这种处理可以将其作为正样本例,此外,同一个batch中其他不同源文本产生的dropout增广词向量可作为负样本例。下图align表示同类之间的距离,Uniform表示所有句子整体分布,可以看出SimCSE的效果比较突出。 

      对比学习让现实生活中普遍存在的无标签数据发光发热,有效规避了费时耗力的打标签任务,同时数据本身提供的信息远比稀疏的标签更加丰富,使用对比学习训练得到的模型更加强壮。相比于有监督学习依赖标签只能针对某一特定任务来定制模型,对比学习可以学到更加泛化的通用特征,对于不同下游任务具有更好的迁移性能。当你苦于构造数据集的标签,不妨试试对比学习的策略,进而实现解放人工的真正智能。

对比学习教程和资料

免费领取方式
关注UP主“ 跟着唐宇迪学AI
直接发送 “对比学习” 

还有一种免费领取方式

看评论区  



AI新技术--零标签玩转对比学习的评论 (共 条)

分享到微博请遵守国家法律