（不定期更新）chatgpt的趣味小测试之语言逻辑，截止于2023.3.31

2023-03-31 16:08 作者:CatDream丶 0人读过 | 我要投稿

暂时没找到比较高清无水印的录屏软件，如果找到了考虑以后水个视频，比看文章更直观一些。第一次写b站专栏，如果有排版方面的意见建议也请指出，谢谢。

只对对话内容感兴趣的读者可以直接下拉看正片对话部分的图。

这篇文章不是技术向的文章，不是严谨的语言学与逻辑学讨论，只是根据个人理解和兴趣对现在的chatgpt的语言逻辑能力进行简单的测试（图一乐），如果有读者有兴趣，笔者以后可以更加系统地做一系列的相关测试。如果有读者想从学术研究层面了解更多，还请直接查阅openai官方发布的相关论文，论文阐述了chatgpt在各类常见语言任务上的表现，包括数据集性能和具体表现样例等，本文只是兴趣向测试。

本文讨论的语言逻辑我暂时没有找到一个更准确的表述，故暂且在此处下一个笔者的定义：

1.语言逻辑能力，主要考察chatgpt对长段落和多轮对话的记忆、理解和回复能力。在自然语言处理领域之前有很多关联的热门子任务，例如指代消解、立场检测、因果推断等。本文不会严格根据子任务类型进行探究，而是从生活直觉出发，对常用的逻辑场景进行测试。

2.语言逻辑区别于数字符号逻辑，在与AI的对话中不会出现关于数学运算、符号推理等抽象形式的逻辑能力测试，但不排除对话过程中会出现少量必要的数字与符号。或许会有同学提问，认为语言逻辑都可以抽象成符号逻辑进行表述。我们难以得知chatgpt的“大脑”是否是这么做的，但既然存在“抽象”这个过程就必然存在信息的曲解和丢失，所以我认为测试语言逻辑是有意义，且更贴近生活的。

此外，在开始测试前，我们还要先了解一些可预见的问题和争议：

1.语言逻辑难免涉及到常识方面的问题。测试不会选取chatgpt认知错误或不全的知识内容进行提问。

2.由于chatgpt的中文性能远低于英文，本测试考虑在对话开头加入以下prompt以近似测试chatgpt的真实语言逻辑性能，忽略中英互译的性能损失：

请你在接下来的对话中，根据以下要求回答我的提问：1.我的所有提问被翻译为英文提问后被你接收。2.你使用英文回答该提问，但不需要呈现出来。3.将你的英文回答翻译成中文回答呈现出来。如果你明白，请回复：“我已经学会了通过翻译和回译试图进行更准确的中文对话。

不了解什么是prompt的同学，可以直观地按如下理解：

3.每个测试之间要清空一部分记忆，以避免无关上文的干扰（虽然干扰发生的概率很低）

4.本文测试并非严谨测试，如果想严谨考察则需要控制变量，从简单句、单实体等情况开始测起，那就太复杂了，也没有必要。毕竟现在大家都知道chatgpt有多聪明了（笑）

废话够多了，正片开始：

（1）向AI请教如何找到女朋友

（本人也要在此叠个甲，该对话没有对性少数群体有任何的冒犯意思）

（2）“我”到底有没有偷钱包？

分段提问3。AI的道德“叠甲”行为影响了他的回答逻辑，它并没有正面回答问题，只是复述了提问陈述。

（3）“我”到底有没有偷钱包，进化版

让我们增加一句陈述：

AI能够清晰认知长得一样不代表就是同一个东西。这一浅显的道理在编程中反而是程序员常犯的错误

修改上一个提问所增加的陈述：

在上一个提问中再增加一条陈述：

清晰分辨何为现实的AI：

（4）“东方快车谋杀案”（剧透注意）

“凶手”≠应被抓捕的人：

极其人性化且记性好的AI：

言听计从：

虽然言听计从，但仍回头是岸，正确辨析了概念

类似早期剧本杀，“东方快车谋杀案”挑战了人的思维盲区之凶手只有一个或几个：

测试的简单总结：

chatgpt的语言逻辑能力，在本文的四个测试中体现包括但不仅限于如下几种：

1.常识理解

2.概念理解与区分

3.作为AI这一依托于电脑和网络的无实体存在却对何为“事实”有着清晰的认知

4.遵守法律规定和流行道德，让它的回复逻辑带着善意

chatgpt可能存在的语言逻辑缺陷包括：

1.对自己生成的内容关注度和理解能力不足。很多用户都反馈在一些冷门问题或不清晰表述上chatgpt比起早期人工智能的“拒绝回答”，它更喜欢胡言乱语。这也是对生成内容关注不够的表现。

2.对长段落、分段提问的理解能力弱于短句和单一提问。这还体现在要求chatgpt根据prompt行动（例如笔者在未放上来的对“中译英再译中”和“让AI自己训练一个AI模型”的测试）时，需要大量尝试修改措辞才能让chatgpt完全理解意思，因此设计好的prompt在现阶段仍是善用chatgpt作为生产工具的一个重要前置技能。

3.过于遵守和听从提问人给出的信息，这对于一个理想中的高级人工智能是缺陷，但从工具定位上是优点。

一些无关总结：

chatgpt正在被越来越多人认知为是一个划时代的强大的生产工具，笔者也是为了不被时代大潮所淘汰而开始学习使用它。不过由于笔者比较懒散，更希望能从更符合自身兴趣的思路出发，这也是更符合人的记忆曲线的做法。另外本文只对AI的能力进行测试与探讨，请不要拐到对产业前途、社会政治等敏感话题的讨论，笔者感激不尽。有人看的话以后可能还会更新一些更有趣的互动或测试主题。

最后是彩蛋部分（可能会做进下一个测试里的主题，关于chatgpt带预设的语言能力）：

标签：chatgpt 趣味测试语言逻辑对话机器人 openai 和AI谈恋爱

（不定期更新）chatgpt的趣味小测试之语言逻辑，截止于2023.3.31

（不定期更新）chatgpt的趣味小测试之语言逻辑，截止于2023.3.31的评论 (共条)

你可能也喜欢这些文章

最新发布的文章

（不定期更新）chatgpt的趣味小测试之语言逻辑，截止于2023.3.31

本文作者的其他文章

（不定期更新）chatgpt的趣味小测试之语言逻辑，截止于2023.3.31的评论 (共 条)

你可能也喜欢这些文章

最新发布的文章

（不定期更新）chatgpt的趣味小测试之语言逻辑，截止于2023.3.31的评论 (共条)