欢迎光临散文网 会员登陆 & 注册

【花师小哲】当代炼金术(神经网络)前沿(32)——大模型涌现是一种幻觉?

2023-05-04 10:52 作者:花师小哲-中二  | 我要投稿

大语言模型(LLM)有个神秘的概念——涌现。这让科学家们非常兴奋,他们认为随着模型规模的增大,模型内部出现了一些本质的改变,或者说量变产生了质变

然后就有论文来打脸了:

1.涌现

关于涌现,参考这篇专栏:

【花师小哲】当代炼金术(神经网络)前沿(23)——transformer涌现了傅里叶变换

涌现这个术语也是来源于物理学啥的,就比如“温度”这个概念对于单个原子是不存在的,而是某种宏观的概念,或者说只有当一个“物体”的规模达到一定程度时才会出现。当然,关于涌现现象的质疑也一直没有停过,实际上这篇论文的核心思想也差不多。

虽然也存在不是因为模型规模扩大而产生的涌现现象,但本文主要还是讨论这种“规模涌现”。

2.涌现的特点

或者先澄清一点,本文并不是说大模型才能学会编程等知识是错误的,而是说明这种能力不是涌现出来的。

哎,这就涉及到涌现的两个特点:

(1)突然出现。即某种能力在某个临界点(这里主要指参数规模)时还没有出现,但一旦达到临界点就会突然提升

(2)不可预测。即我们无法预测这个临界点在哪,也无法解释为什么在那

看图应该好理解:

一个涌现的例子

在模型参数规模达到一定程度之前,性能一直在某一直线那里徘徊,然后突然就上升的很快了。

本文其实是在反驳突然出现和不可预测两个点。

3.涌现是度量的结果?

本文的核心观点是——涌现是度量指标造成的

作者认为,涌现现象是因为评估者选择了非线性和不连续的指标才会出现的

简单从直觉上解释一下,假设我们规定10s跑完100米得1分,跑不完得0分这样一个离散指标,那就忽略了“速度”这个指标,也就是说一个运动员的速度虽然随着训练时间的增加而增加,但只有到他真的达到了“10s跑完100米”,它的分数才会突变为1,在此之前,他的分数一直是0。

也就是说,实际上有些我们没有发现的隐藏的指标一直在随着模型规模扩大比较平滑的在增加,但我们选择了其他的指标导致了看上去模型出现了涌现现象。

或者更通俗来讲,只有量变,没有质变。质变是一种“幻觉”。

作者做了如下实验:

如图,对于同样的结果,选择非线性、离散的指标(C、D),就表现出了涌现能力。选择线性、连续的指标(E、F),就没有表现出涌现能力。

同样的,对于以前一些我们认为没有涌现现象的一些模型,我们也可以构造一些非线性、离散的指标来让它有涌现。

4.思考

需要注意的是,很多时候不是我们有意的去构造一些指标,而是因为很多东西我们是没有办法构造更细力度、线性的指标的。

关于“量变产生质变”可能也是如此,但从宏观来看,或者说从人的角度来看,“量变产生质变”当然是存在的。

所以这篇论文也不能说是完全“打脸”的论文,毕竟AI学术界一直如此,模型都有自己的缺陷,评价指标也是,这样的论文实际上也是帮助我们提高认识。

【花师小哲】当代炼金术(神经网络)前沿(32)——大模型涌现是一种幻觉?的评论 (共 条)

分享到微博请遵守国家法律