欢迎光临散文网 会员登陆 & 注册

讲解CV、NLP里自监督学习怎么用

2021-12-02 18:11 作者:深度之眼官方账号  | 我要投稿

基于机器学习学习方式大致可分为:监督、无监督、半监督和强化学习问题。


机器学习通过解决监督学习问题获得了大部分成功,监督学习任务中的数据被标记,因此为最先进的模型提供了更多的性能提升机会。


近年来,通过监督学习的深度学习也取得了巨大的成功。从图像分类到语言翻译,它们的性能一直在提高。然而,在如罕见疾病的医学数据集,收集大的标记数据集是不可能的,这些类型的数据集为自监督算法提供了充足的机会,可以进一步提高预测模型的性能。


自监督学习旨在从未标记的数据中学习信息表示。通常,在这种情况下,标记数据集比未标记数据集相对小。自监督学习使用这种未标记的数据,并执行代理任务和对比学习。


Jeremey Howard在一篇关于自监督学习的优秀文章中将监督学习定义为两个阶段:“我们用于预训练的任务被称为代理任务(前置任务)。然后我们用于微调的任务被称为“下游任务”。自监督学习的例子包括未来词预测、掩码词预测修复、着色和超分辨率。


计算机视觉的自监督学习


自监督学习方法依赖于数据的空间和语义结构。对于图像,空间结构学习是极其重要的。不同的技术包括旋转、拼图和着色被用作从图像学习表示的代理任务。对于彩色化,提供灰度照片作为输入,并生成照片的彩色版本(The paper by Zhang et al. [1])。解释产生生动逼真色彩的着色过程。


Figure 1: The figure is taken from the paper by Zhang et al. [1]


另一种广泛应用于计算机视觉自监督学习的方法是放置图像补丁。Doersch 等人的论文里面有说明。在本工作中,提供了一个大的未标记的图像数据集,并从它提取随机补丁对。在初始步骤之后,卷积神经网络预测第二个补丁相对于第一个补丁的位置。图 2 说明了该过程。


Figure 2: The image is taken from the paper by Doersch et al. [2]


还有其他不同的方法用于自监督学习,包括修复和分类损坏的图像。如果您对此主题感兴趣,请查看参考文献 [3]。


自然语言处理的自监督学习


自监督学习方法在自然语言处理任务中最为常见。Word2Vec论文中的“ Continuous Bag of Words ”方法是自监督学习最著名的例子。


同样,还有其他不同的方法用于自监督学习,包括邻词预测、邻词预测、自回归语言建模和掩码语言建模。掩码语言建模公式已在BERT、RoBERTa和ALBERT论文中使用。在此任务中,预测了一小部分屏蔽词。


文本自监督学习的最新例子在论文(Zhang 等人的论文[4]),文中作者提出了一种间隔句生成机制,该机制用于总结摘要的下游任务。


Figure 3: The figure is taken from the paper by Zhang et al. [4]


表格数据的自监督学习


对图像和文本的自监督学习一直在进步。然而,现有的自监督方法对表格数据无效。表格数据没有下划线的空间或语义结构,因此现有的依赖空间和语义结构的技术是没有用的。


大多数表格数据都涉及分类特征,而这些特征不具有有意义的凸组合。即使对于连续变量,也不能保证数据流形是凸的。这一挑战为研究人员提供了一个新的研究方向。我将简要说明在这方面所做的一些工作。


(Work done by Vincent et al. [5])提出了一种去噪自动编码器的机制。借口任务是从损坏的样本中恢复原始样本。在另一篇论文中,(Pathak et al. [6])提出了一种上下文编码器,其借口任务是从损坏的样本和掩码向量中重建原始样本。


Tabnet[7]和TaBERT[8]的研究也是一项逐步走向自我监督学习的工作。在这两项研究中,代理任务是恢复损坏的表格数据。TabNet专注于注意力机制,并在每个步骤中选择特征进行推理,另一方面,TABERT 学习自然语言句子和半结构化表格的表示。


Figure 4: The figure is taken from the TabNet paper [7]


最近的一项工作 ( VIME ) [9] 提出了一种新颖的借口任务,可以使用一种新颖的损坏样本生成技术来恢复掩码向量和原始样本。作者还提出了一种新的表格数据增强机制,可以结合对比学习来扩展表格数据的监督学习。


Figure 5: The figure is taken from the paper by Yoon et al. [9]


自监督学习是深度学习的新常态。图像和文本数据的自监督学习技术令人惊叹,因为它们分别依赖于空间和顺序相关性。但是,表格数据中没有通用的相关结构。这使得表格数据的自监督学习更具挑战性。



文章来源:

https://pub.towardsai.net/self-supervised-learning-b65fc6d560ad

免责声明:所载内容来源互联网,仅供参考。转载稿件版权归原作者和机构所有,如有侵权,请联系我们删除。



讲解CV、NLP里自监督学习怎么用的评论 (共 条)

分享到微博请遵守国家法律