欢迎光临散文网 会员登陆 & 注册

【花师小哲】当代炼金术(神经网络)前沿(4)——来玩七巧板吧

2022-12-13 14:57 作者:花师小哲-中二  | 我要投稿


上面这张图也许勾起了你的童年回忆,然而,这是一篇AI届的新论文,还是EMNLP的best paper。看到有推送发这篇就第一时间下载下来看了,推送基本就看到论文地址就停了(防止写的一样),还是自己看一遍说说我的感受吧。

(其实这才是这个专栏常见的形式,主要是简介一些好玩的论文,不讲的太细节,有兴趣的大家可以自己去下载下来看)

0.正经论文?

论文题目

其实只看摘要的话,这篇论文好像还挺正经的,可惜上面那张图就放在第一页,让人的眼光只盯在这张图上了。

不过这张图某种程度上就把事情解释的差不多了。

1.抽象

题目就说的比较清楚了,这是一篇抽象视觉推理相关的论文。那么“抽象”就一定是个关键词。抽象这里不讲太多(否则就太哲学了),这篇论文的抽象简单理解就是我们会用一些概念来描述一些事物

直接看图是更好理解的。左上角的图说明我们可以用一些概念来描述这只狗的不同组成部分,上面两张图说明了我们可以划分地更加详细,例如我们可以继续把腿分为前腿和后腿。下面的例子就更有趣了,对于同一个图形,我们可以用不同的解读方法进行解读(这和很多机器视觉目前的单一标签数据集是不同的)。

还有例子,如不同的七巧板图形中头的形状、位置、个数都是有差别的,人可以抽象出来头,机器能做得到吗?

不一样的“头”

抽象的好处还是很多的,例如这能够更好地研究AI是否有足够的抽象、底层的推理、泛化能力等

2.其实是老熟人?

做CV的可能一眼就看出来这不就是机器视觉的可解释性研究吗?

确实,这两个有很多相似的地方。例如,给身体某一部分做“标记”其实就是常见的可解释CNN滤波器的目标:

将图片分解组合也是视觉可解释性或图片描述的一个重要工作:

这图有点复杂,实际上也是对图片进行“肢解”

当然,这篇文章还是有很多自己的创新点的。

3.其他有趣的点

我发现要是全部讲清楚太麻烦了,要讲很多东西,我对视觉也没那么熟,就不过多展开,先放一些图吧。

(1)花大价钱做了标注,主要标注的是整体和部分(这个标注确实很麻烦)

(2)做了预训练测试,这是输入数据+增强方式的组合,挺好玩的(这一部分要解释起来挺麻烦的,就不展开了)

好多好看的衣服,做成周边一定大卖(bushi

4.重要结论

这篇论文的很重要的一点结论是说明单纯的预训练远做不到“使AI具有足够的抽象能力”的目的,微调的作用依然是很重要。可以说是对于现有预训练方法的一篇很好的研究了(关键是真的有趣)。

【花师小哲】当代炼金术(神经网络)前沿(4)——来玩七巧板吧的评论 (共 条)

分享到微博请遵守国家法律