【花师小哲】当代炼金术(神经网络)前沿(4)——来玩七巧板吧

上面这张图也许勾起了你的童年回忆,然而,这是一篇AI届的新论文,还是EMNLP的best paper。看到有推送发这篇就第一时间下载下来看了,推送基本就看到论文地址就停了(防止写的一样),还是自己看一遍说说我的感受吧。
(其实这才是这个专栏常见的形式,主要是简介一些好玩的论文,不讲的太细节,有兴趣的大家可以自己去下载下来看)

0.正经论文?

其实只看摘要的话,这篇论文好像还挺正经的,可惜上面那张图就放在第一页,让人的眼光只盯在这张图上了。
不过这张图某种程度上就把事情解释的差不多了。

1.抽象
题目就说的比较清楚了,这是一篇抽象视觉推理相关的论文。那么“抽象”就一定是个关键词。抽象这里不讲太多(否则就太哲学了),这篇论文的抽象简单理解就是我们会用一些概念来描述一些事物。

直接看图是更好理解的。左上角的图说明我们可以用一些概念来描述这只狗的不同组成部分,上面两张图说明了我们可以划分地更加详细,例如我们可以继续把腿分为前腿和后腿。下面的例子就更有趣了,对于同一个图形,我们可以用不同的解读方法进行解读(这和很多机器视觉目前的单一标签数据集是不同的)。
还有例子,如不同的七巧板图形中头的形状、位置、个数都是有差别的,人可以抽象出来头,机器能做得到吗?

抽象的好处还是很多的,例如这能够更好地研究AI是否有足够的抽象、底层的推理、泛化能力等。

2.其实是老熟人?
做CV的可能一眼就看出来这不就是机器视觉的可解释性研究吗?
确实,这两个有很多相似的地方。例如,给身体某一部分做“标记”其实就是常见的可解释CNN滤波器的目标:

将图片分解组合也是视觉可解释性或图片描述的一个重要工作:

当然,这篇文章还是有很多自己的创新点的。

3.其他有趣的点
我发现要是全部讲清楚太麻烦了,要讲很多东西,我对视觉也没那么熟,就不过多展开,先放一些图吧。
(1)花大价钱做了标注,主要标注的是整体和部分(这个标注确实很麻烦)

(2)做了预训练测试,这是输入数据+增强方式的组合,挺好玩的(这一部分要解释起来挺麻烦的,就不展开了)


4.重要结论
这篇论文的很重要的一点结论是说明单纯的预训练远做不到“使AI具有足够的抽象能力”的目的,微调的作用依然是很重要。可以说是对于现有预训练方法的一篇很好的研究了(关键是真的有趣)。