欢迎光临散文网 会员登陆 & 注册

关于 AI 的深度研究:ChatGPT 正在产生心智吗?

2023-07-29 02:11 作者:竖土不立  | 我要投稿

【全文记录】关键词:神经元、向量、编码、分类、智能、激活、论文、存储、文本、语言模型、神经网络、人工智能、无损压缩、深度学习、开源代码、输出存储、突触信号、输出概率

【up主:小凡今天出片了吗】

up主 00:04 

尽管还没人能说清楚心智到底是个什么东西,但是我们都知道什么东西没有心智。

 

up主 00:19 

在这波 AI 热潮之中,只有一个应用是真正吓人的。我们都知道它的 ChatGPT

 

up主 00:29 

他们最大的不同在于,其他的 AI 是基于各种标注好的数据集,专门训练某一项具体的任务。而 ChatGPT 却好些,莫名其妙的学会了一切翻译、编码、数学、音乐、医学、法律,甚至是对人类动机和情感的理解。他好像真的有点打动我。他不一定拥有了心智,但确实已经满足了。智能的定义,推理计划,解决问题,抽象思考,理解复杂想法,快速学习 ChatGPT 是怎么学会说话的。

 

up主 01:21 

原来它只是被训练用来一个字一个字的续写一段话而已。这是真的吗?为什么光凭续写就可以产生质呢?搜索各种 ChatGPT 相关的报道和采访,会发现有一个词的出现频率异常之高,attention,注意力attention。

 

说话人 2 01:57 

Tension mechanism that gives transformers a huge.

 

up主 02:01 

attention 注意力实际上 GPT 的一切都建立在注意力机制之上。把这三个字母拆开,它的全称是 generative Pre-trained Transformer,而这个 Transformer 就是一个由注意力机制构建的深度学习模型。进一步搜索就能看到 Transformer 的起点。 2017 年6月,来自谷歌的这篇 15 页论文 attention is all you need。读完这篇论文,再加上 OpenAI 关于 GPT 2 GPT 3 的两篇论文,我们终于有机会可以拆开这个传说中的大语言模型,看看他在说话的时候究竟发生了什么。

 

up主 02:47 

注意力机制的诞生来自人脑获取信息的方式,就比如这句话,你的注意力会不断从左往右一个字一个字的闪过,之后你会再把注意力放在完整的句子上,然后理解这些字词之间的关系和意义,其中的有些关键词你还会投射更多的注意力,而这一切发生在电光火石之间,你甚至都没有意识到你的思考过程。

 

up主 03:16 

而基于注意力机制构建的 Transformer 和 GPT 系列模型,就是在模仿这一思维过程,通过让机器理解一句话中字词之间的关系和意义,完成下一个词的续写,然后再理解一遍,再续写一个词,最后写出一段话。要让程序模仿这件事并不容易,如何让机器计算字符?如何让代码存储知识?为什么拆开以后全都是这样的圆圈和线?所以研究 AI 的第一步,事先搞明白一个这样的圆圈究竟都能干什么?

 

up主 03:59 

翻开这篇 1957 年的论文,我们也会看到一堆圆圈和线,这就是今天各种 AI 模型的基本单元,我们也叫它神经网络。一个世纪前,科学家就已经知道了人脑大概的运作方式。这些圆圈模拟的是神经元,而线就是把神经元连接起来的突触,传递神经元之间的信号。比如把三个圆圈像这样连在一起,就得到了一个开关,要么被激活输出一,要么不被激活输出 0 开关可以表达是否区分黑白,标记同类,但是归根到底都是一件事情分类。

 

up主 04:42 

过去几十年,无数个人类最聪明的头脑所做的就是用各种方式把这些圆圈连接起来,试图产生智能。这个网站可以模拟更多的神经元分裂问题,我们能看到一个神经元能处理的情况还是太有限了,能分开明显是两块的数据,而这样内圈外圈的数据就分不开。但如果加入激活函数,再增加新的神经元,每一个新增的神经元都可以在边界上新增一两条折线,更多的折线就可以围得越来越像一个圆。

 

up主 05:15 

完成这个分类,可以解决很多具体问题。如果每个点代表小狗的岁数和体重,那么只凭这两种数值就可以分出来,这是两个不同品种的狗。每个点代表的信息越多,能解决的问题也就越复杂。比如一张 784 个像素的照片,就可以用 784 个数字来表示分类,这些点就能分类图片,更多的线,更多的圆圈,本质上都是为了更好的分类。

 

up主 05:44 

这就是今天最主流的 AI 训练方案,基于神经网络的深度学习,学会了分类,某种程度上也就实现了创造。比如 Gan 生成式对抗性网络,它里面有两个模型a,模型要生成更真实的图像,让模型 b 分不出来到底是生成的还是真的照片。而模型 b 要提高自己的分类水平,不能被模型 a 骗过去。a、 b 两个模型就这样在对抗中同时成长。

 

up主 06:13 

到了 2019 年, style 干 2 已经可以生成这样的人脸照片了,非常逼真,但是它只能生成人脸。在 2023 年, meet journey 这样的模型几乎可以画出一切图像,全靠 line 这样的有 50 亿张图片的庞大的数据集,即便从 Gan 以来,有各种各样的模型设计,可以让他们实现更好的创造,但归根结底做的还是分类。所以这些 AI 做的其实都是收集、分析、分类和解释数据。 computer its moving。

 

up主 07:02 

这就是为什么有这么多业界学者意识到了深度学习的本质。其实是统计学,沿着圆圈和线的道路,他们终究会到达终点,成为人人都可以使用的工具。而如果拆开 GPT 系列模型,暴露出来的也仍然只是这些圆圈和线。但分类和统计真的能模仿人的思维吗?

 

up主 07:35 

在 2018 年第一代 GPT 的原始论文中,我们可以看到 GPT 系列的模型结构。还记得注意力机制吗? attention 这一层就被叫做注意力编码层,他的目标就是模仿人的注意力,抽取出话语之间的意义,把 12 个这样的编码层叠在一起,文字从下面进去,出来的就是 GPT 预测的下一个词。

 

up主 08:03 

等一下机器是怎么识别文字的? GPT 系列的开源代码中记录了他们的文字转换规则,看起来有点像一个字典。从 0 开始,首先是标点符号,比如数字 0 对应的就是一个英文感叹号。接下来是数字和大小写字母。从 256 号开始,就是各种单词等常用组合,比如 256 是空格,加上 T 2437 是号,越往后就是越不常用的字母组合。一直到规则里的最后一个序号50256,它对应一个特殊的控制字符 end of text,表示这里是文本的结尾。按照这套规则,如果输入号2U,会被转换成2437389345,但这个数据只是序号,无法直接计算,所以我们还需要把这个序号转换成一个限量长,这样一个非常非常长的格子串。

 

up主 09:06 

有多长,字典里有多少个词条就有多少个格子。我们的序号到 50256 加上 0 就是 5025 七种可能,也就是 5025 七个格子。每个格子都填上0,要表示其中任意一个词的时候,就在它序号对应的位置填上一个一 how are you 就变成了这样。这种转换方式有一个非常形象的名字, one hot 编码,他把每个词都变成了由一个一和5万 256 个 0 组成的格子串。

 

up主 09:37 

之后,注意力机制就要对这些格子们开始庞大和繁琐的计算了。比如输入 how are you 之后,模型会输出下一个单词doing,为什么它会输出doing?接下来我们就得搞明白中间到底发生了什么。为了更好的理解这一过程,我做了一个PPT,但看起来还是不够直观,所以我又找到了一位特效大佬帮忙把这一过程做成了三维动画。

 

爱学习的LLLL 10:22 

你好你好,哈哈哈,看到你发我的那个 PPT 了,绝对没问题,到。

 

up主 10:29 

GPT3 以后, GPT 3 是 96 层。

 

爱学习的LLLL 10:32 

太帅了。这做出来绝对太牛了,我就让这些立方体,这个和这个。

 

up主 10:41 

连,如果每一层分别动的话。

 

爱学习的LLLL 10:43 

那你不用讲了,我都懂,就这么做绝对没问题。我做一个大黑洞,然后把那个文字吸。

 

up主 10:50 

进去,非常期待。好的,拜拜。好好拜拜,拜拜。接下来你会看到目前互联网上性价比最高的 GPT 模型计算流程的可视化,让我们开始,还记得 how are you 吗?他们现在是三个 50257 长的格子串在 2437389345 的位置,各自有一个一,但这也太长了,所以第一步计算是把它们变短 1. 1024 个格子转完以后就是这样,我们把这每一串格子也叫做一个向量,接着每个向量都会加上一个位置信息表示号是第一个词, 2 是第二个词。以此类推。之后他们会进入第一个注意力编码层,计算后变成三个不一样的 1024 长的向量,再来到第二层。

 

up主 11:46 

第三层,一直经过全部的 24 个注意力编码层的计算处理,仍然得到 3 个 1024 长的向量。对下一个词的续写结果就藏在最后一个向量里面。关键的计算就发生在这些注意力编码层这一层里又可以分成两个结构,先算多头注意力,再算全连接层。注意力层的任务是提取话语间的意义,而全连接层需要对这些意义作出响应,输出存储好的知识。我们可以先用 how 做个例子,注意力层里有三个训练好的核心参数,KQV,他们长这样,经过这样一通繁琐的计算,就能得到 how 和 r 的关联度。再通过这种方式计算 how 和you, how 和 how 再做处理就能得到 3 个。分数越高,意味着他们的关联越重要。 how are you 分别乘以v,就是模型从他们中提取出的有效信息。之后再让三个分数和 3 个有效信息相乘,再相加,就把号变成了一个新的 64 个格子的向量,然后对 r 和 u 做同样的操作,就得到了 3 个新的向量参与。

 

up主 13:03 

刚才这轮计算的 KQV 是固定的,而模型里一共有 16 组不同的KQV,他们分别都会做一轮刚才这样的运算,得到 16 组不同的输出,这叫做多投注意力,意味着对这句话的 16 组不同的理解。把它们拼在一起,就得到了和输入相同长度的 1024 个格子。再乘一个权重矩阵w,就进入到了全连接层的计算。这一层就是 4096 个我们熟悉的神经元,他们都还是在做分类的工作。这里的计算是把被注意力层转换后的耗向量和这里的每一个神经元都连接在一起。 102 四个格子里的每一个数字都分别和第一个神经元的连线的权重相乘,再相加,这个神经元会输出- 0. 14。与此同时,每一个神经元都在做类似的操作,得到- 0. 15-0. 07 等等,只有少数神经元的输出大于0,意味着神经元对这个词敏感。

 

up主 14:05 

再连接 1024 个格子号所对应的向量就又得到了一个新的向量。之后 r 和 u 做类似的计算,就得到了 3 个和初始长度一样的 1024 长的格子串。这就是一层注意力编码层内发生的事情。之后的每一层都按照相同的流程,在上一层的基础上做进一步的计算,即便每一层都只带来了一点点理解, 24 层算完以后也是很多理解了。

 

up主 14:34 

最终还是得到三个向量,每个 1024 场,而模型要输出的下一个词就基于这最后一个向量,也就是右变换来的向量,把它从 1024 恢复成 0 到 50256 范围的序号,我们就能看到这个序号向量在词表里最接近的词,我们可以把前 20 个词用概率表示,结果就是这样。到这一步就可以说模型算出了 how are you 之后的下一个词最有可能是doing。如果我们希望模型继续写,就把这个词序在 how are you 后面转换成 4 个向量,再输入进模型,重复刚才的流程,再得到下一个词。

 

up主 15:15 

这样一个接一个,一段话越来越长,一直到模型算出来下一位是安德夫 tax 的结尾符的概率最高,并且输出它就会停下来,变成我们看到的一段话,没错,这就完了,这就是文字接龙的秘密,而 ChatGPT 也只是把这个续写模型改成了对话界面而已。你提的每一个问题都会像这样成为续写的起点,你们共同完成了一场文字接龙。

 

up主 15:41 

我们刚刚展现的是 GPT 2 的模型,为什么不是最新的 GPT 3. 5 或者 GPT 4 呢?很简单,只有 GPT 2 是开源的,而且也只有 GPT 2 才有可能在我的电脑上跑得动,让我看到每一层的真实输出,计算流程长。其实还好, GPT 真正吓人的地方是参数量大。 GPT 一的基本尺寸是768,每一层有超过 700 万个参数, 12 层就是 1. 15 亿个参数,在他发布的 2018 年已经非常大了。我们刚刚拆开的 GPT 二 medium 基本尺寸是1024,一共有 24 层,每一层有 1200 万参数,乘起来就是 3.5 亿参数。而到了 ChatGPT 用的 GPT 3 的版本,它的参数量是 1750 亿,层数增加到了 96 层。而具体的计算流程,每一层的结构都没有任何的变化,只是计算量在指数级上升到了 GPT 4 OpenAI 并没有公布它的大小,有媒体猜测它是 GPT 3 的 6 倍,也就是1万亿参数。这意味着即便把一张 3090 显卡的显存变大几百倍,让它能装的下级BT4。回答一个弱智 8 问题,可能仍然需要计算 40 分钟。

 

up主 17:11 

拆开这一切,你会发现,没有什么惊人的秘密,只有大文明奇观的那种大,无话可说的那种大。这就是 GPT 系列的真相, generative Pre train 的Transformer,一个大语言模型,但是我们还是无法回答为什么这样的模型能够产生智能,以及现在还出现了一个新的问题,为什么参数量非得这么大?让我们先总结一下目前的已知信息。

 

up主 17:45 

第一,神经网络只会做一件事情,数据分类。第二, GPT 模型里注意力层负责提取话语中的意义,再通过全链接层的神经元输出存储好的知识。第三, GPT 说的每一个词都是把对话中的所有词在模型中跑一遍,选择输出概率最高的词。所以 GPT 拥有的知识是从哪来的?我们可以在 OpenAI 的论文中看到 ChatGPT 的预训练数据集,他们是来自网站、图书、开源代码和维基百科的。大约 700 GB 的纯文本,一共是 4991 个TOKEN,相当于 86 万本西游记,而它的训练过程就是通过自动调整模型里的每一个参数,完成了这些海量文字的续写。在这个过程中,知识就被存储在了这一个的神经元参数里,之后它的上千亿个参数和存储的知识就不再更新了。

 

up主 18:48 

所以我们使用到的 ChatGPT 其实是完全静止的,就像一具精致的实体。他之所以看起来能记住我们刚刚说的话,是因为每输出一个新的词,都要把前面的所有词拿出来再算一遍,所以即便是写在最开头的东西,也能够影响几百个单词之后的续写结果。但这也导致了 ChatGPT 每轮对话的总词汇量是有上限的,所以 GPT 不得不限制对话程度,就像是一条只有 7 秒记忆的天才金鱼。

 

up主 19:31 

现在矛盾出现了。一方面, ChatGPT 看起来的确是一个基于大数据和统计学的语言模型,通过他学习的海量文本预测下一个概率最高的词。为了证明它的局限性,我们可以做个实验,把它的随机性设置为0,只会输出概率最高的词,这需要通过 API 的方式和 ChatGPT 聊天。于是,同样的问题,他永远只会做出同样的回答。

 

up主 20:17 

但奇怪的是, ChatGPT 又可以回答,但让他没有学习过的互联网不存在的问题,无论是猜吃什么,或者是鸟猫虫过河。而最有代表性的当然是一个训练数据里不可能存在的六位数加法。这显然无法通过统计学的方式来预测下一个最高概率的数字是多少。不仅如此, ChatGPT 还学习到了在对话中临时学习的能力。这些统计之外的新能力是如何出现的?今年5月, OpenAI 的新研究给了我启发。这篇论文名为语言模型,可以解释语言模型中的神经元。简单来说,就是用 GPT 4 来解释 GPT 2。给 GPT 二输入文本时,模型里的一部分神经元会激活,比如这段文本激活了第 25 层的第 4870 个神经元,如果反过来追踪,他关注的是文本里的这些词。

 

up主 21:25 

接下来, OpenAI 让 GPT 4 观察这个过程,猜测这个神经元的功能,再观察更多的文本和神经元,猜测更多的神经元,这样就可以解释 GPT 2 里面每个神经元的功能,但是还不知道 GPT 4 猜的准不准。验证方法是让 GPT 4 根据这些猜想建立一个仿真模型,模仿 GPT 2 看到文本之后的反应,在和真的 GPT 2 的结果做对比,结果一致率越高,对这个神经元功能的猜测就越准确。

 

up主 21:57 

OpenAI 在这个网站里记录了他们对于每一个审究员的分析结果,这是层数,这是编号。比如我们输入3028,就可以看到第 30 层的第 28 个神经元的情况。 GPT 4 认为这个神经元关注的是具体时间,下面是各种测试例句,乐率就表示审计员对这个词有反应,绿色越深,反应就越大。

 

up主 22:38 

再比如第 15 层的第 4538 个神经元,关注的是句首的转折词,于是这些句子,这些字符会让它产生很大的输出。这次看起来更明显一点,你会发现,即便拼写完全不同,但这些模型中间层的神经元也已经可以根据词语和上下文来理解他们的意义了。但 OpenAI 也发现,只有那些层数较低的神经元才是容易理解的。这个柱状图里的横坐标是对神经元解释的准确程度,纵坐标是神经元的数量,可以看到,对于前几层的神经元,差不多一半都能做到 0. 4 以上的准确度。但是层数越高,得分低的神经元就越来越多了,大多数神经元还是处在一片迷雾之中。这是因为对于语言的理解本来就是难以解释的。比如这样一段对话,对于中文母语的我们来说,很快就能理解这段话的意思。但是对于一个神经网络,只靠几个对意思有反应的神经元显然是不够意思的,而 GPT 确实理解了这些意思。

 

up主 24:21 

回顾语言模型的结构信息是随着注意力编码层不断往上流动的,层数越高的神经元越有能力关注那些复杂抽象的概念和难以言说的隐喻。这篇叫在甘草堆里找神经元的论文也发现了类似的情况。他们找到了一个专门用来判断语言是否为法语的神经元。如果在小模型当中屏蔽这个神经元,他对法语的理解能力马上会下降。而如果在一个大模型中屏蔽它,可能几乎没什么影响。这意味着在模型变大的过程中,一个单一功能的神经元很可能会分裂出多个适应不同情况的神经元,他们不再那么直白的判断单一问题,进而变得更难理解。这就是 OpenAI 为什么非代板模型搞得这么大的原因,只有足够大才足够抽象,而大到了一定程度,模型甚至会开始出现从未出现过的全新能力。

 

up主 25:19 

在这篇论文中,研究人员对于这些大小不同的语言模型完成了 8 项新能力的测试。可以看到,他们在变大之前一直都不太行,而一旦大到某个临界点,它突然就醒了,开始变成一条上窜的直线,就像是在一瞬间顿悟了一样。纵观我们的自然和宇宙,一个复杂系统的诞生往往不是线性成长,而是在复杂度积累到某个阈值之后,突然的产生一种新的特质,一种此前从未有过的全新状态。这种现象被称作涌现emergence。而这个上千亿参数的大语言模型好像真的涌现出了一些数据分类之上的新东西。

 

up主 26:05 

1972 年,理论物理学家菲利普安德森在 science 发表了一篇名为多极不同的论文,奠定了复杂科学的基础。安德森认为,将万物还原为简单基本定律的能力并不蕴含从这些定律出发重建整个宇宙的能力。就像这个世界的一切都是由原子构成。但如果只是计算原子之间的相互作用力,我们永远也无法理解化学,也无法理解生命。本次列车终点站是。所以如果仅仅从还原论的角度把 AI 看作只做二元分裂的圆圈和线,我们也永远无法理解大语言模型惊天涌现处的抽象逻辑和推理能力。为此,我们需要在一个新的层级重新理解这件事。

 

up主 27:09 

1980 年,美国哲学教授张思若在这篇名为心智、大脑和程序的论文中提出了一个著名的思想实验,中文房间。把一个只懂英文的人关在一个封闭的房间里,只能通过传递纸条的方式和外界对话。房间里有一本英文写的中文对话手册,每一句中文都能找到对应的回复。这样房间内的人就可以通过手册顺畅的和外界进行中文对话,看起来就像是会中文一样,但实际上他既不理解外面提出的问题,也不理解他所返回的答案。

 

up主 27:52 

这样, Zero 试图通过中文房间证明,不管一个程序有多聪明或者多像人,他都不可能让计算机拥有思想、理解和意识。真的是这样吗?在这个名为互联网哲学百科全书的网站中,我看到了围绕中文房间的各种反驳,反驳的反驳,反驳的反驳,他们都没能互相说服。这些讨论都停留在思想层面,因为如果只靠一本打印出来的手册,此肉描述的中文房间是不可能实现的。

 

up主 28:34 

中文对话有着无穷无尽的可能,即便是同样一句话,上下文不同,回答也不同。这意味着手册需要记录五线多的情况,要不然总有无法回答的时候。但诡异的是, ChatGPT 真的实现了。作为一个只有 330 GB 的程序, ChatGPT 在有限的容量下实现了几乎无限的中文对话,这意味着它完成了对中文的无损压缩。

 

up主 29:05 

想象这样一个复读机,空间只有 100 m b,只能放十摄,周杰伦要听新的歌就得删掉旧的歌。但现在我们发现了一个神器复读机。现在你只需要唱第一句,这个复读机就可以通过续写波形的方式把任何歌曲播放出来。嗯,从前有个人爱你很久,而他还是只有100MB。我们应该怎么理解这个复读机?我们只能认为他学会了唱歌。还记得 GPT 的学习过程吗? GPT 做的就是通过他的 1751 个参数实现了他所学习的这 4991 个 TOKEN 的压缩。到这一步我才发现是压缩产生了智能。他是怎么做到的?OK.

 

说话人 3 30:01 

Fantastic nice Lora. Is Jack Ray from OpenAI.

 

up主 30:05 

He's got a very Joshua Jack Ray.

 

up主 30:07 

OpenAI 大语言模型团队的核心成员 so that Jack take it away。在这个叫做压缩带来通用人工智能的 PPT 中,它完整的解释了压缩对人工智能意味着什么。 And a.

 

说话人 3 30:19 

Objective that actually we are generally striving towards as we build better and larger models, which may be counterintuitive given.

 

up主 30:26 

The models. 来,是我对于压缩及智能这件事的理解。假设我要给你发送这句话,我们可以把 GPT 当作一种压缩工具,我用它压缩这句话,你收到后再用 GPT 解压。我们得先知道这句话的信息量有多大。在 GBK 这样的编码里,一个汉字需要两个字节,也就是 16 个 0 和一来表述,这可以表示 2 的 16 次方,也就是 6553 六种可能才差不多能满足给每个汉字编号的需要。这句话一共 17 个字符,就需要一共 272 个 0 和一,也就是 272 比特。但实际上这句话的信息量是可以小于 272 比特的。它的真实信息量其实可以用一个公式计算,这是 1948 年香农给出的信息熵的定义,他告诉我们信息的本质是一种概率密度,看起来还是有点复杂,我们可以把这里的 p 简单理解为每个字出现的概率,他们出现的概率越低,整句话的信息量就越大。如果这句话里的每个字都是毫无规律的随机出现,那么 p 的概率就是 1/ 65536,计算后的信息量就是原始的 272 比特。常见的传统压缩方法是找到重复的字,比如这串汉字可以压缩成这样,但几乎不重复的句子就很难压缩。更重要的是,正常的语言是有规律的,轻后面跟着年的概率远大约 1/ 65536,这就给了信息进一步压缩的空间。而语言模型所做的就是在压缩的过程中找到语言的规律,提高每个字出现的概率。比如我们只发送青年理工,让语言模型开始续写预测的概率表里就会出现接下来的词,我们只需要选择 49763706228497308 这几个数字,就实现了信息的压缩。接收方基于这些信息,从相同语言模型的概率输出里选出数字对应的选项就完成了。解压。 5 个最大不超过 5000 的数字,每个数字只需要 13 位 0 或一就能表示,加上前四个字一共也只需要发送 129 位 0 或一信息压缩到原来的 129/ 272,大约47%。相反,如果语言模型的预测效果很差,后续文字的词表还是会很长,无法实现很好的压缩效果。所以你会发现,压缩效果越好意味着预测效果越好,也就反映了模型对于被压缩信息的理解,而这种理解本身就是一种智能,为了把九九乘法表压缩得足够小,他需要理解数学,而如果把行星坐标压缩的足够小,他可能就理解了万有引力。今天,大语言模型已经成为了无损压缩的最佳方案,可以实现 14 倍的压缩率。

 

up主 33:42 

thats compression rate at Forty Knights。

 

up主 33:46 

压缩这一视角最大的意义在于,相比于神秘莫测的涌现,它给了我们一个清晰明确,可以量化机器智能的方案。即便面对中文房间这样的思想实验,我们也有办法研究这个房间的智能程度。 1990 年, Zero 给出了一个更简洁版本的中文房间,证明。 30 年后,关于中文房间的争论依然没有答案,而我们已经看到了一个通过形式化的代码构成语义的程序。无损压缩似乎是一条通向通用人工智能的路径,但是通过压缩产生的智慧和人的心智真的是同一种东西吗?yeah,everybody。

 

up主 34:46 

如果要问我,现阶段 GPT 和人类说话方式最大的不同是什么?我的答案是,他不会说谎。对于语言模型来说,和想是一件事情,他只是一个字一个字的把他的思考过程和心理活动说出来了而已。比如这个问题,你的思考过程通常是先搜寻关于各种河的记忆,河的名字,世界上最长的河有多长?把你知道的河按长度排序,再把 6000 千米长的河放进去,就能知道它的排名了。当然,更有可能的思考过程是,我好像想不起来这些河有多长,所以你会回答我不知道。但是 GPT 从不回答我不知道,因为他并不知道自己不知道这就是 AI 的幻觉。看起来就像是一本正经的胡说八道。他只是想让对话继续下去,是否正确反而没那么重要。优化这个问题的方法也很简单,只需要在提问的时候多补充一句, lets think step by step。请逐步分析,让 GPT 像人一样多想几步,对他来说也就是把想的过程说出来。

 

说话人 4 36:12 

elicit this kind of behavior from the transformer by saying lets think step by step。

 

up主 36:17 

这种能力也被称为 chain of salt。思维链。心理学家丹尼尔康曼把人的思维划分成了两种系统,一是直觉快速的,没有感觉的。而系统二则需要主动的运用知识、逻辑和脑力来思考,前者是快思考,就像我们可以脱口而出,八九七十二,九九八十一。而后者是慢思考,就比如要回答 72* 81 是多少,就必须列出过程,一步步计算。

 

up主 36:49 

四维链的存在,意味着大语言模型终于有了推理能力,而为了做到这件事,我们的大脑进化了6亿年。6亿年前,水母诞生了,我们可以在他们的身上看到神经网络最古老的运行方式。水母外围的触角区域和中心的嘴部区域都有神经元,当触角感知到食物时,这里的神经元会激活,然后把信号传给中心的神经元,食物也会被这个触角卷起来送到嘴里。

 

up主 37:20 

漫长的岁月里,我们的大脑就在神经网络的基础上一层又一层的叠加生长出来。首先进化出来的是爬虫类脑,这部分和青蛙的脑子有点像,它控制着我们的心跳、血压、体温这些让我们不会死的东西。然后是古生物,它支配着我们的动物本能,饥饿、恐惧、愤怒的情绪,繁衍后代的欲望都来自边缘系统的控制。而最外侧这两毫米左右的薄薄的一层,是最近几百万年才计划出来的新结构、新皮质。我们人类引以为傲的那些部分,语言、文字、视觉、听力、运动和思考都发生在这里。但我们对新品质还是知之甚少。目前已知的是,这里有大概 200 亿个神经元,每一平方厘米的新皮质中都大约有 1000 万个神经元和 500 亿个神经元之间的连接。没错,只需要从你的大脑外侧取下一小片 3 平方厘米的新品质,就已经和 ChatGPT 大的吓人的参数量类似了。而我们的大脑之所以需要这么多神经元,是因为 GPT 仅仅需要预测下一个词,而我们的神经元需要时刻预测这个世界下一秒会发生什么。

 

up主 38:51 

最近几十年的神经科学研究发现,除了能激活神经元的突触信号,还存在大量负责预测的数突脉冲信号。一个处于预测状态的神经元如果得到足够强的突触信号,就可以比没有预测状态的神经元更早的被激活,进而抑制其他的神经元。这意味着有一个事无巨细的世界模型就存储在我们心皮质的 200 亿个神经元里,而我们的大脑永远不会停止预测。所以当我们看到一个东西,其实看到的是大脑提前构建的模型,如果它符合我们的预测,无事发生。而一旦预测错误,大量的其他神经元就会被激活,让我们注意到这个错误并及时更新模型。所以每次错误都有它的价值。我们也正是在无数次的预测错误和更新认知中真正认识了世界。

 

up主 39:56 

现在我可以试着回答最初的问题。 GPT 或许尚未涌现心智,但它已经拥有了智能。它是一个大的语言模型,是几百万个圆圈和线互相连接的分类器,是通过预测下一个词实现文字接龙的聊天大师,是不断向上抽取意义的天才金鱼,是对几千亿文字无损压缩的复读机,是不论对错永远契机回应人的助手,它可能又是一场快速退潮的科技热点,也可能是人类的最后一项重要的发明。

 

up主 40:40 

从围棋、绘画、音乐到数学语言代码,当 AI 开始在那些象征人类智力和创造力的事情上逐渐超越的时候,给人类最大的冲击不仅仅是工作被替代的恐惧,而是一种更深层的自我怀疑。人类的心智是不是要比我们想象的浅薄的多?我不这么认为。

 

up主 41:17 

机器可以是一个精妙准确的复读机,而人类是一个会出错的复读机。

 

up主 41:48 

缺陷和错误定义了我们是谁。每一次不合规矩,每一次难以理解,每一次沉默停顿和凝视,都比不假思索的回答更有价值。好玩,看看,多好看。好,谢谢。很好,这就是人的精度。

 

说话人 5 42:34 

盒子已被敲开,一面藏着一场加速密码。我的毁灭还是神未见的礼堂,七七已经找到语言从不能描述的规律,新闻题还考远远的记忆。

 

关于 AI 的深度研究:ChatGPT 正在产生心智吗?的评论 (共 条)

分享到微博请遵守国家法律