关于 AI 的深度研究:ChatGPT 正在产生心智吗?

视频总结
总述:本视频通过自底向上分析GPT的原理,从GPT模型基础、算法概论,到涌现现象、“智能与压缩”的提出,最后在哲学高度上思考人与AI的区别与联系。
本文仅根据视频内容和自己的理解对于视频进行概括。我不是专业人士,如有错误或疏漏,欢迎大家理性讨论分享,谢谢!
本视频常常是先提出问题,再讲解很多基础知识,最后回归问题进行解决。我尽量将这种递归的逻辑以不同层次文字展现出来。
0. 问题背景 00:30 :ChatGPT不同于专攻各个领域的特定模型,它具有通用性、综合性,可以对“翻译、编码、数学、音乐、医学、法律甚至是人类动机和情感等”产生“理解”。GhatGPT目前的表现,已经可以认定为产生了一定的“智能”——拥有计划、推理、解决问题、抽象思考、理解复杂想法、快速学习等能力。
1. 基础知识(只是稍提了一下注意力机制,并未展开)
(1) 01:42 模型基本单元——神经网络:神经网络在结构上模拟人脑神经的运作,实现分类的功能。神经网络越复杂,理论上就可以拥有对复杂度越高的数据进行分类的能力。(1.Up主这里略去了深度学习算法的具体内容。概括地讲,我们无法手动调节神经网络参数,使得神经网络具有较好分类效果的。深度学习算法,例如反向传播算法,可以在迭代中,通过算法自动调节网络中的参数,提升分类准确率,使得神经网络逐渐具备分类功能2.这里以神经网络的分类功能作为重点,略去其他内容)
(2) 05:54 GAN(Generative Adversarial Network)——生成式对抗性网络:两个模型进行对抗训练,例如A模型生成图片,B模型进行图片分类(分为“AI生成”和“真实”),两个模型在对方反馈中进行训练,从而达成类似“协同进化”的效果。
(3) 07:02 UP主认为所有AI模型所做的都是收集、分析、分类和解释数据,并指出很多业界学者认为深度学习的本质是统计学。
2. 07:30 ChatGPT如何学会说话?——GPT模型原理概述(从GPT2开始讲解,以及网页是模型程序的封装)
(1) 07:46 注意力机制(Attention Mechanism)和Transfomer模型:在GPT模型中有“注意力编码层”,注意力机制模拟人脑获取信息的方式。GPT通过注意力机制“理解”字词之间的关系,从而进行文本续写。
(2) 08:04 对于一串字符(例如:How are you,后面括号里面会一直拿这个举例)
① 08:50 先扔到某种编码器(Tokenizer)里面转化成一串数字序列([2437, 389, 345])。
② 09:00 再进行“one-hot编码”(3*50257)。
③ 11:21 进行嵌入转化,转化为向量(3个,1024长)。
④ 11:30 与位置信息叠加, 形成新的向量(3个,1024长)。
⑤ 11:41 进入注意力编码层进行计算,形成新的向量(3个,长1024)。之后以此类推,进入多个注意力编码层层层计算。
⑥ 14:40 最后出来的向量进行解码,得到概率最高的“下一个”单词进行输出。
⑦ 15:06 将这个单词拼接在原有句子后面,再扔到模型里面算,知道出现结束符为止。
(3) 11:59 注意力编码层:多头注意力层(提取意义) 和 全连接层 (相应意义,输出储存好的知识)
① 12:21 对于每一个“注意力头”,有三个参数KQV,KQ用来计算两个词之间的意义,V和将KQ计算结果相乘再相加(具体过程见视频),形成64长向量(3个)。
② 13:07 16个注意力头的结果拼起来,得到1024长向量(3个)。
③ 13:26 输出的向量乘权重矩阵,输入全连接层的神经网络,得到1024长的向量输出。(3个)
3. 17:40 复杂系统和涌现现象(为什么GPT1到GPT4只是改变了模型大小,就发生了质的变化?More is different.)
(1) 19:40 GPT虽然基于数据统计和分析,但是可以输出不在训练样本中的内容。
(2) 21:02 GPT-4解释GPT-2中神经元的作用:观察GPT2的计算过程,建立仿真模型进行对比。在语义上,越往浅层越具体,越往深层越抽象(依据是因为越深层的神经元,猜测准确度整体越低)。
(3) 24:34 研究指出,在研究语言模型时,屏蔽某一个“识别法语”的神经元,对于小模型会极大降低正确性,对于大模型影响不大。推测大模型中神经元更多,可以适应更多不同复杂情况。
(4) 25:21 研究表明,模型尺寸对模型能力的影响,会在跨过一个尺寸临界之后突然快速上升。
(5) 25:42 涌现现象:在论文《More Is Different》中,作者认为,将万物还原为简单基本定律的能力,并不蕴含从这些定律出发重建整个宇宙的能力。(例如我们可以知道每个水分子之间的相互作用,但是如果我们不放大尺度,就永远无法认识到“湿”这一特征)。我们应该站在更高尺度上研究GPT,而非拘泥于某一个神经元。
4. 27:04 从哲学高度重新认识问题
(1) 27:07 中文房间思想实验:让一个不会中文会英语的人在密闭房子里,有一本英文写的中英文问答手册,外面问问题,里面根据手册内容回答,外面的人看上去里面的人会中文、理解中文,实际上里面的人不会。以此,想来证明任何程序没有心智。
(2) 28:11对中文房间实验,有许多讨论,有反驳和反驳反驳等等,紧紧停留在思想层面。然而GPT表现出来,输出不在“手册”上的“新东西”的行为。仿佛一个神奇MP3,你唱第一句,它能接出任何歌曲——我们只能认为它“学会”了唱歌。
(3) 29:40 认知和衡量“智能”的新观点——“压缩”(来源于OpenAI团队核心成员的讲解):神奇的MP3在压缩歌曲信息,GPT也在压缩文字信息。UP主用香农的信息论中相关内容(信息的本质是一种概率密度),计算了出对于毫无意义的文字排列组合的信息量,GPT生成中的信息量明显减少 。(这可以看成对于规律的感知把握,使得信息量减少?)目前大语言模型“无损压缩”率可以实现14倍。(甚至我们把星球坐标信息压缩,模型或许会理解万有引力)。我们可以用压缩率来衡量智能程度。
(4) 34:27 GPT与人类最大的不同是什么?UP主认为是GPT不会说谎。GPT只是把想的说出来。
(5) 35:56 (UP主开始对比人脑和GPT推理的相似性)。我们通过“请逐步分析”的提示语,可以触发思维链(Chain of thought)。而心理学家 Daniel Kahneman把人的思维方式划分成两种,一种是快速、直觉的,一种是逻辑的、知识的。
(6) 36:54 从进化角度来看,我们大脑的功能演化从低等到高等,从基础的生理需求到语言文思、逻辑思维等复杂能力。我们的大脑可以看做一个模型,在一次次错误中不断调整适应,建构起对于世界的预测能力。
5. 40:00 总结视频内容 和 40:37 结尾人文主题升华:当我们在创造力上、智力上被逐渐超越,我们重新思考自我,人类心智的本质是否浅薄?UP主不这样认为。UP主认为,人之所以为人,有一方面原因是,人类会出错。
UP主并未直接说明结论。我认为,结论大致是:GPT已经产生智能,并未产生心智。