欢迎光临散文网 会员登陆 & 注册

跨域小样本系列1:简介篇

2023-05-18 12:22 作者:深度之眼官方账号  | 我要投稿

来源:投稿 作者:橡皮
编辑:学姐

引言

IEEE Spectrum在采访AI领域巨佬吴恩达(Andrew Ng)时,他表示“对于许多根本不存在巨型数据集的产业,重点必须从大数据转向优质数据。有50个经过深思熟虑后处理的样本示例,就足以向神经网络解释你想要它学习什么。”(In many industries where giant data sets simply don’t exist, I think the focus has to shift from big data to good data. Having 50 thoughtfully engineered examples can be sufficient to explain to the neural network what you want it to learn.)由此可见,针对规模小但精致的数据是未来的一个重要研究方向。

跨域小样本学习

在现实中的很多场景下,收集大量有标签数据是非常昂贵、困难甚至不可能实现的,如何在低资源场景对下游任务进行性能提升是小样本学习(Few-Shot Learning)重点关注的问题,目前使用元学习(Meta-Learning)方法已经能够很好的满足小样本学习的需要。随着研究的发展和对现实场景的进一步理解,相比小样本学习条件更加苛刻的跨域小样本学习(Cross-Domain Few Shot Learning)成为了近些年来新兴的研究话题。

具体来讲,对于一些特殊场景下难以收集的数据,比如皮肤病图像、飞机残骸卫星图像等等,它们在现实中收集困难、发生概率极低。跨域小样本学习,是希望利用一个或多个其他成熟领域(源域)上的先验知识,去解决另一个缺少样本的(目标域)的复杂任务。 同时值得一提的是,跨域小样本的问题与人类凭借已有知识去解决从未接触过领域的新问题的设定几乎一样,它的提出更加符合人工智能模仿人类思考的模式。

针对这个概念,不得不说很容易与大家所熟悉的域适应(Domain Adaptation)、小样本学习(Few Shot Learning)概念相混淆,为方便理解,在此按照自己的理解做出了一个简单的概念辨析:

  • 域自适应(DA):希望使用在A任务上学习到的先验知识来解决A’任务。其中两种任务类型相同(比如都是分类任务),但是A任务与A’任务存在很大的域跨度(Domain Gap),例如使用白天良好光照条件下的数据先验知识试图解决黑夜条件下的任务。

  • 小样本学习(FSL):希望使用在A任务上学习到的先验知识来解决B任务,且B任务的可用数据很少。其中两种任务类型不同(比如A是分类任务,B是检测任务),但是A任务和B任务之间几乎没有域跨度。

  • 跨域小样本学习(CDFSL):希望使用在A任务上学习到的先验知识来解决B任务,且B任务的可用数据很少。其中两种任务类型不同(比如A是分类任务,B是检测任务),但是A任务和B任务之间有不同程度的域跨度。

在ECCV2020的一篇文章(A Broader Study of Cross-Domain Few-Shot Learning) 中,作者详细的给出了关于跨域小样本问题的定义并提出了一个基准(Benchmark):

数据集分别包括植物疾病图像、卫星图像、皮肤病变的皮肤镜图像和X光图像。 所选数据集反映了精确的真实世界案例,用于跨域小样本学习。此外,从上述领域收集足够的例子通常是困难的、昂贵的,或者在某些情况下是不可能的!

在这项研究中建立的Benchmark设定: 使用ImageNet进行源域预训练,使用与自然图像不同的目标域进行目标评估。相似度由3个正交标准衡量:

1)是否存在透视失真,

2)语义内容,

3)颜色深度。

目标类与源类的标签不相交。

⚪农业病害CropDisease数据集:有透视 自然图像 彩色图

⚪卫星图像EuroSAT数据集:无透视 自然图像 彩色图

⚪皮肤病的ISIC数据集:无透视 医学图像 彩色图

⚪X光胸片ChestX数据集:五透视 医学图像 灰度图

作者提出的基准评价方法与实验设置:

作者提出的基准评价方法与实验设置:

目前CDFSL的研究难点和思路:

① 源域和目标域标签不重合(disjoint)

-重新训练最后一层softmax

② 目标域的可用标签数据极少-fewshot

-新的学习策略:learn to learn meta-learning

③ 存在域跨度-domain gap

-域自适应 域对齐 调优

解决CDFSL的主流方法

① 元学习(meta-learning)

-在小样本学习领域非常impressive,但是在跨域小样本学习领域的性能很难与调优相比。

② 迁移调优(fine-tuning)

-性能方面效果虽然比元学习要好,但是有一定的上限,究竟在调优时选择finetune-all还是finetune last-k layer都是问题...

在下期文章,将会介绍CDFSL的常用数据集并分别对任务设定详解,关注不错过哦~

关注“学姐带你玩AI”公众号

回复“500”领取学姐整理分类好的论文合集

跨域小样本系列1:简介篇的评论 (共 条)

分享到微博请遵守国家法律