欢迎光临散文网 会员登陆 & 注册

【花师小哲】杂谈大模型

2022-12-09 12:02 作者:花师小哲-中二  | 我要投稿

经典,越忙越想摸会鱼写写专栏。这次就杂谈下大模型。


我们先谈谈哲学史,不过也不用太严谨的术语吧(杂谈杂谈,想到什么说什么)。

一开始时,古希腊人创建了哲学,他们讨论了各种话题,到柏拉图和亚里士多德那里,他们总结了哲学,并给出了自己的一些想法。例如,亚里士多德在《形而上学》钟就提出了十几个(不同版本个数有些差别)哲学问题或哲学研究派别。很多人都说,之后的所有哲学都是才重新阐释柏拉图或亚里士多德的哲学。换种话说,柏拉图或亚里士多德给出了一份哲学考试大纲。

之后一大群人都试图回答这些哲学问题,这其中不免有很多哲学家,他们不总是关注某个具体的哲学问题,他们想彻底破解这份哲学考试大纲,于是黑格尔出现了,他说他吧之前所有哲学都变成了一盘菜,然后把所有菜摆到了一张大桌子上,他已经完全破解了这份哲学考试大纲。

但是,在哲学领域,所有题目似乎都是主观题,总有人不服黑格尔给出的答案,所以他们要发动哲学革命,思路非常多,例如走唯物主义、重新阐释哲学问题大纲、换用其他方法继续答题等。但大部分的后续理论都有个共同点——它们不再试图构建起一个囊括万物的统一大理论,而是去关注某个具体的问题。

其中的一支,后现代理论甚至认为在后现代,一切都是解离的、碎片的,一切从共性的极端走向了个性的极端。

好了,以上关于哲学史就杂谈那么多,肯定不全面也不精确,不过抽出这个过程有助于后面的分析。


让我们把视角转到人工智能领域,转到神经网络模型。

我们最开始认为由于过拟合问题基本上无法完美解决,神经网络似乎都只能在某个领域中发挥一定的功能,一个识别猫狗的网络不能够识别马和牛,一个帮你写代码的AI不能帮你画画。

但是,人们总是追求泛化(当然,关于泛化也有很多可以谈的,泛化甚至可能是一个死路,毕竟最泛化的方法其实是随机),他们希望有通用人工智能。好消息是我们似乎还不需要囊括智能的一切领域,我们可以先攻克一个大领域,例如CV(机器视觉)或NLP(自然语言处理)。就单拿自然语言处理来讲,其中包含的问题其实蛮多的,有问答系统(ChatGPT那样的)、文本分类、机器翻译等。我们想用一个算法来解决这一切问题。

于是,大模型出现了,预训练出现了(预训练之前专栏提到多次了)。预训练的思想是我们使用无监督的数据来进行训练,通过自监督训练的方式使得模型记住一些东西(这样的好处是省去大量标注成本,毕竟语料和图片可以随便从网上扒)。例如NLP的BERT模型的预训练过程是想让BERT记住词语上下文关系和句子上下文关系,CV领域的SimCLR模型的预训练过程是想让SimCLR知道哪些图片是相近的,哪些是不同的。

大模型本身不一定能直接拿来做事情,但是我们只需要进行微调就可以实际应用,并且可以应用在不同的问题上。例如对于SimCLR,我们可以用猫狗数据集让它区分猫狗,也可以用马牛数据集让它区分马牛等等。

或者说,大模型就像是一个统一的大理论,我们可以快速地那它来解释具体问题,某种程度上和黑格尔统一理论的思路是差不多的。

当然,不同的点也很多,例如黑格尔辩证法是理性的、是有完整架构的,而大模型只是上万亿个数值而已,甚至根据业界的一般看法,大模型只是把一切训练数据全都记录下来,所以远观是一个共性,实质上是无数个个性。

当然,AI的研究肯定不是完全集中在大模型上,另一个通用人工智能的方向是多模态,简单来说,就是把图像、文本等全部整合起来。似乎大模型+多模态就能走向通用人工智能了。

那么大模型是不是会像黑格尔理论一样走向滑铁卢呢?这个不好说,因为ChatGPT告诉大家,用小模型在专长领域甚至都打不过用大模型API,大模型似乎要建立起权威统治了。

不管怎么说,毕竟还没有人像黑格尔那样站出来宣布AI要大结局了(即使有也很可能会被光速打脸),我们也只能走一步是一步了。

【花师小哲】杂谈大模型的评论 (共 条)

分享到微博请遵守国家法律