欢迎光临散文网 会员登陆 & 注册

【花师小哲】鉴定网络热门(?)AI(12)——LeCun的世界模型出成果了

2023-06-14 18:31 作者:花师小哲-中二  | 我要投稿

LeCun世界模型做出来点东西了,于是来读一下。

我本人对CV不是很熟(从之前的专栏可以看出来我更擅长NLP),但世界模型还是很感兴趣的,所以来发一篇专栏(之前听闻有人说难理解,可能说的是世界模型的原始论文难理解,这篇论文真的简单啊)

1.世界模型

关于世界模型是什么,我们之后再细讲,因为世界模型那篇论文还是需要精读一下的,这里简单放一下new bing的回答:


需要说明的是,本篇论文并不是介绍世界模型原理的论文,而是应用世界模型思想设计的一个方法,能够一定程度上说明世界模型的强大作用。

2.CV自监督预训练

CV(计算机视觉)自监督预训练也是一个很重要的研究方向,熟悉NLP的自监督预训练重要性的朋友应该能理解,不用标注数据就能获得很好的效果是多么爽的一件事情。

简单来说,自监督预训练就是让模型从未标注数据中学习一定的知识。例如,我们有一张小狗照片,我们就让模型学习这张照片,但是不告诉他这是一只狗。

目前来说,自监督预训练分为两个大流派——对比学习mask(和论文中的术语不太一样)

对比学习可以参考之前的专栏:

【花师小哲】当代炼金术(神经网络)前沿(6)——对比学习

简单来说,对于一张图片,我们可以裁剪、旋转等,然后把这些图片给模型。假设原始图片上有一只狗子,那么处理后的图片上也应该是一只狗子。这样,模型就能从这些照片中学习到“狗子”的抽象信息。当然,通过自监督预训练模型指导“狗子”这种东西的特征,但是不知道这个东西叫做“狗子”的,之后还要再微调。

mask方法也很简单,就是我们把一张照片随机涂黑一些像素,让模型去预测这些像素(所以也称为生成式方法)。没错,就像做完形填空一样,BERT直呼内行啊。

著名msk方法MAE

这两种方法都有优点和缺点,例如对比学习容易出现表征崩溃(不管输入如何,输出都变成一样的),mask很难学到抽象特征(或者语义)

3.本文方法——I-JEPA

本文是在mask方法上改进的。既然mask方法学不到抽象,那我们干脆不要在像素层面进行恢复,而是在高级抽象层面进行恢复。

举个例子,让你恢复一张图片,假设你只是根据像素来复原,整体像素值看上去可能比较和谐,但语义上会出现问题,很多AI绘画画不好手就是这个原因。但是,如果把一只手遮上让你预测这里可能有什么,你可以说这里有只手,这只手有五个指头、指头大概是什么样的...这些信息就是抽象语义信息,能帮助你复原出“合理”的图片。

方法如下:

可以看到,目标块也要过一个encoder进行编码。

4.这么简单?

没错,这方法就这么简单,就是把像素值的复原换成语义的复原。那么为什么这么简单的方法之前没人搞呢?其实确实是有人搞过类似的,不过这种方法也存在表征崩溃的问题(再语义这种抽象层面上搞就经常出现这样的问题),可能很多人觉得不值就不搞了。

而且,这篇文章做的主要还是传统分类之类的任务,模型也没有很大,所以其实还是需要更多验证的。

【花师小哲】鉴定网络热门(?)AI(12)——LeCun的世界模型出成果了的评论 (共 条)

分享到微博请遵守国家法律