【花师小哲】当代炼金术（神经网络）前沿（4）——来玩七巧板吧

2022-12-13 14:57 作者:花师小哲-中二 0人读过 | 我要投稿

上面这张图也许勾起了你的童年回忆，然而，这是一篇AI届的新论文，还是EMNLP的best paper。看到有推送发这篇就第一时间下载下来看了，推送基本就看到论文地址就停了（防止写的一样），还是自己看一遍说说我的感受吧。

（其实这才是这个专栏常见的形式，主要是简介一些好玩的论文，不讲的太细节，有兴趣的大家可以自己去下载下来看）

0.正经论文？

其实只看摘要的话，这篇论文好像还挺正经的，可惜上面那张图就放在第一页，让人的眼光只盯在这张图上了。

不过这张图某种程度上就把事情解释的差不多了。

1.抽象

题目就说的比较清楚了，这是一篇抽象视觉推理相关的论文。那么“抽象”就一定是个关键词。抽象这里不讲太多（否则就太哲学了），这篇论文的抽象简单理解就是我们会用一些概念来描述一些事物。

直接看图是更好理解的。左上角的图说明我们可以用一些概念来描述这只狗的不同组成部分，上面两张图说明了我们可以划分地更加详细，例如我们可以继续把腿分为前腿和后腿。下面的例子就更有趣了，对于同一个图形，我们可以用不同的解读方法进行解读（这和很多机器视觉目前的单一标签数据集是不同的）。

还有例子，如不同的七巧板图形中头的形状、位置、个数都是有差别的，人可以抽象出来头，机器能做得到吗？

抽象的好处还是很多的，例如这能够更好地研究AI是否有足够的抽象、底层的推理、泛化能力等。

2.其实是老熟人？

做CV的可能一眼就看出来这不就是机器视觉的可解释性研究吗？

确实，这两个有很多相似的地方。例如，给身体某一部分做“标记”其实就是常见的可解释CNN滤波器的目标：

将图片分解组合也是视觉可解释性或图片描述的一个重要工作：

当然，这篇文章还是有很多自己的创新点的。

3.其他有趣的点

我发现要是全部讲清楚太麻烦了，要讲很多东西，我对视觉也没那么熟，就不过多展开，先放一些图吧。

（1）花大价钱做了标注，主要标注的是整体和部分（这个标注确实很麻烦）

（2）做了预训练测试，这是输入数据+增强方式的组合，挺好玩的（这一部分要解释起来挺麻烦的，就不展开了）

4.重要结论

这篇论文的很重要的一点结论是说明单纯的预训练远做不到“使AI具有足够的抽象能力”的目的，微调的作用依然是很重要。可以说是对于现有预训练方法的一篇很好的研究了（关键是真的有趣）。

标签：

【花师小哲】当代炼金术（神经网络）前沿（4）——来玩七巧板吧的评论 (共条)