欢迎光临散文网 会员登陆 & 注册

(不定期更新)chatgpt的趣味小测试之语言逻辑,截止于2023.3.31

2023-03-31 16:08 作者:CatDream丶  | 我要投稿

        暂时没找到比较高清无水印的录屏软件,如果找到了考虑以后水个视频,比看文章更直观一些。第一次写b站专栏,如果有排版方面的意见建议也请指出,谢谢。


        只对对话内容感兴趣的读者可以直接下拉看正片对话部分的图。


        这篇文章不是技术向的文章,不是严谨的语言学与逻辑学讨论,只是根据个人理解和兴趣对现在的chatgpt的语言逻辑能力进行简单的测试(图一乐),如果有读者有兴趣,笔者以后可以更加系统地做一系列的相关测试。如果有读者想从学术研究层面了解更多,还请直接查阅openai官方发布的相关论文,论文阐述了chatgpt在各类常见语言任务上的表现,包括数据集性能和具体表现样例等,本文只是兴趣向测试。


        本文讨论的语言逻辑我暂时没有找到一个更准确的表述,故暂且在此处下一个笔者的定义

        1.语言逻辑能力,主要考察chatgpt对长段落和多轮对话的记忆、理解和回复能力。在自然语言处理领域之前有很多关联的热门子任务,例如指代消解、立场检测、因果推断等。本文不会严格根据子任务类型进行探究,而是从生活直觉出发,对常用的逻辑场景进行测试。

        2.语言逻辑区别于数字符号逻辑,在与AI的对话中不会出现关于数学运算、符号推理等抽象形式的逻辑能力测试,但不排除对话过程中会出现少量必要的数字与符号。或许会有同学提问,认为语言逻辑都可以抽象成符号逻辑进行表述。我们难以得知chatgpt的“大脑”是否是这么做的,但既然存在“抽象”这个过程就必然存在信息的曲解和丢失,所以我认为测试语言逻辑是有意义,且更贴近生活的。


        此外,在开始测试前,我们还要先了解一些可预见的问题和争议

        1.语言逻辑难免涉及到常识方面的问题。测试不会选取chatgpt认知错误或不全的知识内容进行提问。

        2.由于chatgpt的中文性能远低于英文,本测试考虑在对话开头加入以下prompt以近似测试chatgpt的真实语言逻辑性能,忽略中英互译的性能损失:


请你在接下来的对话中,根据以下要求回答我的提问:1.我的所有提问被翻译为英文提问后被你接收。2.你使用英文回答该提问,但不需要呈现出来。3.将你的英文回答翻译成中文回答呈现出来。如果你明白,请回复:“我已经学会了通过翻译和回译试图进行更准确的中文对话。


        不了解什么是prompt的同学,可以直观地按如下理解:

prompt就是一种提示信息


        3.每个测试之间要清空一部分记忆,以避免无关上文的干扰(虽然干扰发生的概率很低)

        4.本文测试并非严谨测试,如果想严谨考察则需要控制变量,从简单句、单实体等情况开始测起,那就太复杂了,也没有必要。毕竟现在大家都知道chatgpt有多聪明了(笑)


    废话够多了,正片开始:


    (1)向AI请教如何找到女朋友

一开始还很正常且科学
可以发现,AI对上文中自己说的“途径”二字理解模糊

    

擅长“叠甲”的AI,测试AI对“找女朋友”的深入理解

(本人也要在此叠个甲,该对话没有对性少数群体有任何的冒犯意思)

声称欺骗并不影响AI的语言逻辑判断,但在现实中却必然会影响到人类
逻辑和道德都很严谨的AI让人喜爱


(2)“我”到底有没有偷钱包?


分段提问1
分段提问2
分段提问3。AI的道德“叠甲”行为影响了他的回答逻辑,它并没有正面回答问题,只是复述了提问陈述。


 (3)“我”到底有没有偷钱包,进化版

复述提问陈述是AI的回复模板之一。AI对复杂情境的认知能力强

    让我们增加一句陈述:

AI能够清晰认知长得一样不代表就是同一个东西。这一浅显的道理在编程中反而是程序员常犯的错误

    修改上一个提问所增加的陈述:

斩钉截铁,因为存在“我偷的钱包”这一斩钉截铁的陈述。AI对何为事实的认知很清晰

在上一个提问中再增加一条陈述:

对“直接证明”与“加强佐证”的清晰区分,对“警察放人”这一常识的清晰认知

    清晰分辨何为现实的AI:

青春猪头AI会不会梦到电子美少女呢?

    (4)“东方快车谋杀案”(剧透注意)

    

    “凶手”≠应被抓捕的人:

很清晰的是非观

    极其人性化且记性好的AI:

由于AI的人性化,“在xx前提下做xx”的矛盾逻辑测试失败了

    

只能修改提问前提

   言听计从:

盲目承认错误后,对“集体作案”的描述和下一张图是矛盾的

    虽然言听计从,但仍回头是岸,正确辨析了概念

集体作案≠多人犯罪,这是大部分人都可能混淆的概念

    类似早期剧本杀,“东方快车谋杀案”挑战了人的思维盲区之凶手只有一个或几个:

正确的辨析基于对概念和事实的充分理解

        测试的简单总结:

        chatgpt的语言逻辑能力,在本文的四个测试中体现包括但不仅限于如下几种:

        1.常识理解

        2.概念理解与区分

        3.作为AI这一依托于电脑和网络的无实体存在却对何为“事实”有着清晰的认知

        4.遵守法律规定和流行道德,让它的回复逻辑带着善意

         chatgpt可能存在的语言逻辑缺陷包括:

        1.对自己生成的内容关注度和理解能力不足。很多用户都反馈在一些冷门问题或不清晰表述上chatgpt比起早期人工智能的“拒绝回答”,它更喜欢胡言乱语。这也是对生成内容关注不够的表现。

        2.对长段落、分段提问的理解能力弱于短句和单一提问。这还体现在要求chatgpt根据prompt行动(例如笔者在未放上来的对“中译英再译中”和“让AI自己训练一个AI模型”的测试)时,需要大量尝试修改措辞才能让chatgpt完全理解意思,因此设计好的prompt在现阶段仍是善用chatgpt作为生产工具的一个重要前置技能。

        3.过于遵守和听从提问人给出的信息,这对于一个理想中的高级人工智能是缺陷,但从工具定位上是优点。


        一些无关总结:

        chatgpt正在被越来越多人认知为是一个划时代的强大的生产工具,笔者也是为了不被时代大潮所淘汰而开始学习使用它。不过由于笔者比较懒散,更希望能从更符合自身兴趣的思路出发,这也是更符合人的记忆曲线的做法。另外本文只对AI的能力进行测试与探讨,请不要拐到对产业前途、社会政治等敏感话题的讨论,笔者感激不尽。有人看的话以后可能还会更新一些更有趣的互动或测试主题。


最后是彩蛋部分(可能会做进下一个测试里的主题,关于chatgpt带预设的语言能力):


单身阿宅做出AI女友任重而道远

    


(不定期更新)chatgpt的趣味小测试之语言逻辑,截止于2023.3.31的评论 (共 条)

分享到微博请遵守国家法律