(不定期更新)chatgpt的趣味小测试之语言逻辑,截止于2023.3.31

暂时没找到比较高清无水印的录屏软件,如果找到了考虑以后水个视频,比看文章更直观一些。第一次写b站专栏,如果有排版方面的意见建议也请指出,谢谢。
只对对话内容感兴趣的读者可以直接下拉看正片对话部分的图。
这篇文章不是技术向的文章,不是严谨的语言学与逻辑学讨论,只是根据个人理解和兴趣对现在的chatgpt的语言逻辑能力进行简单的测试(图一乐),如果有读者有兴趣,笔者以后可以更加系统地做一系列的相关测试。如果有读者想从学术研究层面了解更多,还请直接查阅openai官方发布的相关论文,论文阐述了chatgpt在各类常见语言任务上的表现,包括数据集性能和具体表现样例等,本文只是兴趣向测试。
本文讨论的语言逻辑我暂时没有找到一个更准确的表述,故暂且在此处下一个笔者的定义:
1.语言逻辑能力,主要考察chatgpt对长段落和多轮对话的记忆、理解和回复能力。在自然语言处理领域之前有很多关联的热门子任务,例如指代消解、立场检测、因果推断等。本文不会严格根据子任务类型进行探究,而是从生活直觉出发,对常用的逻辑场景进行测试。
2.语言逻辑区别于数字符号逻辑,在与AI的对话中不会出现关于数学运算、符号推理等抽象形式的逻辑能力测试,但不排除对话过程中会出现少量必要的数字与符号。或许会有同学提问,认为语言逻辑都可以抽象成符号逻辑进行表述。我们难以得知chatgpt的“大脑”是否是这么做的,但既然存在“抽象”这个过程就必然存在信息的曲解和丢失,所以我认为测试语言逻辑是有意义,且更贴近生活的。
此外,在开始测试前,我们还要先了解一些可预见的问题和争议:
1.语言逻辑难免涉及到常识方面的问题。测试不会选取chatgpt认知错误或不全的知识内容进行提问。
2.由于chatgpt的中文性能远低于英文,本测试考虑在对话开头加入以下prompt以近似测试chatgpt的真实语言逻辑性能,忽略中英互译的性能损失:
请你在接下来的对话中,根据以下要求回答我的提问:1.我的所有提问被翻译为英文提问后被你接收。2.你使用英文回答该提问,但不需要呈现出来。3.将你的英文回答翻译成中文回答呈现出来。如果你明白,请回复:“我已经学会了通过翻译和回译试图进行更准确的中文对话。
不了解什么是prompt的同学,可以直观地按如下理解:

3.每个测试之间要清空一部分记忆,以避免无关上文的干扰(虽然干扰发生的概率很低)

4.本文测试并非严谨测试,如果想严谨考察则需要控制变量,从简单句、单实体等情况开始测起,那就太复杂了,也没有必要。毕竟现在大家都知道chatgpt有多聪明了(笑)
废话够多了,正片开始:
(1)向AI请教如何找到女朋友



(本人也要在此叠个甲,该对话没有对性少数群体有任何的冒犯意思)


(2)“我”到底有没有偷钱包?



(3)“我”到底有没有偷钱包,进化版

让我们增加一句陈述:

修改上一个提问所增加的陈述:

在上一个提问中再增加一条陈述:

清晰分辨何为现实的AI:

(4)“东方快车谋杀案”(剧透注意)
“凶手”≠应被抓捕的人:

极其人性化且记性好的AI:


言听计从:

虽然言听计从,但仍回头是岸,正确辨析了概念

类似早期剧本杀,“东方快车谋杀案”挑战了人的思维盲区之凶手只有一个或几个:

测试的简单总结:
chatgpt的语言逻辑能力,在本文的四个测试中体现包括但不仅限于如下几种:
1.常识理解
2.概念理解与区分
3.作为AI这一依托于电脑和网络的无实体存在却对何为“事实”有着清晰的认知
4.遵守法律规定和流行道德,让它的回复逻辑带着善意
chatgpt可能存在的语言逻辑缺陷包括:
1.对自己生成的内容关注度和理解能力不足。很多用户都反馈在一些冷门问题或不清晰表述上chatgpt比起早期人工智能的“拒绝回答”,它更喜欢胡言乱语。这也是对生成内容关注不够的表现。
2.对长段落、分段提问的理解能力弱于短句和单一提问。这还体现在要求chatgpt根据prompt行动(例如笔者在未放上来的对“中译英再译中”和“让AI自己训练一个AI模型”的测试)时,需要大量尝试修改措辞才能让chatgpt完全理解意思,因此设计好的prompt在现阶段仍是善用chatgpt作为生产工具的一个重要前置技能。
3.过于遵守和听从提问人给出的信息,这对于一个理想中的高级人工智能是缺陷,但从工具定位上是优点。
一些无关总结:
chatgpt正在被越来越多人认知为是一个划时代的强大的生产工具,笔者也是为了不被时代大潮所淘汰而开始学习使用它。不过由于笔者比较懒散,更希望能从更符合自身兴趣的思路出发,这也是更符合人的记忆曲线的做法。另外本文只对AI的能力进行测试与探讨,请不要拐到对产业前途、社会政治等敏感话题的讨论,笔者感激不尽。有人看的话以后可能还会更新一些更有趣的互动或测试主题。
最后是彩蛋部分(可能会做进下一个测试里的主题,关于chatgpt带预设的语言能力):
