Claude 2和ChatGPT4-中文应答能力測試【實測对比】google新黑

现在还有多少人在纠结要不要升级 ChatGPT Plus 呢?想要有更高级聪明的 AI 能力,就一定要支付更高昂的费用吗?上一期我们讲了来势汹汹的 Claude 2 阵容大更新,距离 Anthropic 公司推出 Claude 1.0 版本仅仅过去了不到四个月时间。
在之前的大模型评分中,GPT-4 是目前综合能力最强的大模型,其次是 Accord 1,已经紧随其后,在当时就已经超过了 GPT-3.5。Claude 2 的评分暂时还没出。但是从一些群众自发的能力测中已经可以看到,Claude 不仅在文案翻译、编码、逻辑、安全层面都大大超越了原来的自己,并且正在飞速赶上 AI 之王 GPT-4。
今天我们就五个科目来测试,对比一下 GPT-4 和 Claude 2 的能力。分别是简单问答对话、复杂问题处理、办公任务总结分析以及 AI 创意这几个方面,并且全程使用中文提问。话不多说,对比来看
科目一简单问答
主要是确认一些基本事实,我们可以通过现有的网络渠道快速验证这些大模型是胡说八道,还是真的了解正确的信息呢?
我们来开始提问,第一款 iphone 是什么时候推出的?可以看到 Claude 的回复比较详细,除了发布日期之外,包括第一款 iphone 的规格参数也帮我列了。再来看一下 GPT-4,很言简意赅的回复给到了发布会的时间和销售时间。这一题上两者都回答的准确,Claude 更发挥了一点主观能动性,回答的更完整一些。
第二个问题,安史之乱说的是什么?Claude 的回答说安史之乱起于 751 年,而 GPT 的回答则是 755 年。GPT 对于时间的回答是更准确的。史书上记载安史之乱起于 755 年,于 763 年结束。我们再来看一下描述 GPT-4,这里提到了为什么叫安史之乱。因为两个起义的人一个姓安一个姓史,包括安史的整个起义过程,虽然描述的比较简洁,但是历史过程没有重大错误。所以在这一题上 GPT 更准确。
我们继续提问,飞流直下三千尺,疑是银河落九天出自哪个诗人的哪首诗歌?Claude 和 GPT 都回答的很准确,出自李白的望庐山瀑布,也都说了这是李白在感叹气势磅礴的瀑布。
总体而言,Claude 似乎一直想多说点什么,但是在例如时间这种信息的准确度上还比不上 GPT。所以这一轮我给 GPT 赞。
科目二复杂问题,这一轮我会问一些复杂问题。例如制定语言学习计划,制定旅行计划,让 AI 帮我们去思考,去做头脑风暴,给到指令。你是一个西班牙语教师,帮我制定一个六个月,详细到每周的零基础西班牙语学习计划,让我可以完成基本口语沟通。
我们先来看一下 Claude 的反馈,可以看到他并没有帮我把计划详细拆分到每周,还是以每月来制定计划。乍一看感觉还可以,但是细看觉得有点车轱辘化,不够详细。
我们再来看一下 GPT-4,他这个回答里面有一个点我很喜欢。在开篇他就说了,这个计划是按照一周学习五天,每天2小时来制定的这一点比 Claude 要更有逻辑一些。在详细计划这块和 Claude 相似,也没有拆分到每周,不过在每一个周期的侧重点都有标明,比如第一个周期侧重在初级的语法和词汇,第二个周期是扩展词汇,第三个周期是实战,也包括每个周期重点学习的词汇类别也有标注。这大概是因为我说了,我的目标在于达到基本口语沟通,因此他也会建议我去学习食物、交通工具、问候等这些基础词汇。很显然 GPT 这个计划感觉更有参考性,也可以后面让 GPT 再帮我们拆分到每一周的具体事项。
我们来做第二个提问,这次请他们给我们做旅行攻略,还是给到目的地预算时间等要求,让他们做出一个具体到每天的餐厅住宿行程计划。这次为了对比 2 个 AI 的攻略是否合理,我把他们的路线图放到 google map 上来看一下。
首先是 Claude 制定的规划路线,他还给我加了瑞士和匈牙利。如果真的按照这个路线去走,简直是横跨中欧地区。而且像第四天的这个行程,更是要一天开车七个小时。我的诉求只是德国和奥地利,而不是一天一国。
再来看一下 GPT-4 制定的规划路线,GPT 的路线就合理的多,从法兰克福出发,主要涵盖了德国南部几个主要地区和奥地利的萨尔茨堡。维也纳也根据我的预算给出了餐厅和住宿建议,对照地图看不走回头路,行程也比较合理。在这一轮复杂问题上,我判 GPT-4 胜。
科目三总结与分析能力。这里我会给到 AI 一个 PDF 文档以及 excel 形式的问卷反馈汇总,让 AI 来进行分析总结。上传一份关于 2019 年的中国 martek 市场调研报告,让 AI 帮我总结一下这份报告中都说了什么。
先看 Claude 这边,可以看到 Claude 马上就帮我总结出了这份 PDF 文档主要讲的是什么,并且很简洁。在 GPT-4 中如果要通过类似上传文档的方式,可以用最新的 code interpret or 功能。但 GPT-4 好像不支持这类型的 PDF,无法读取信息,也就无法帮我们做总结。这个文件的 PDF 是多图类型的,并不是纯文字类型的。因此目前来看没法直接上传类似这样的 PDF 给到 GPT。
第二个问题,我们再来看一下 CSV 格式的文件。我把用户对于产品反馈的 CSV 格式文件发送给 Claude 和 GPT-4,请他们分析问卷中用户的反馈。OK,Claude 和 GPT-4 都帮我做了分析,并且提出了优化建议。在这一轮总结分析,显然在上传文件的格式限制上,Claude 更占优势。
我给 Claude 上
科目四,办公类任务,例如帮我们写邮件写产描述。比如说我有一个客户对接的问题,那我把这个棘手的问题抛给他们俩,来看一下他们俩的处理方式。
我们比较一下两者的回答。虽然 Claude 的版本看上去比较简单,但是总体语法和表达上并没有太大的毛病。GPT 的这个中文邮件就很奇怪,希望这封邮件找到你一切都好。这显然是 "hope this email find you well",英文表达的中文翻译很奇怪,因为我们都不会这样去写邮件。
第二个问题,让他们写产品描述,这个在电商场景中应用需求比较大,还是给到一些产品基础的信息。这个中文的产品描述,两者看上去没有太大的差异,用词上都比较传统保守,是比较正规的作文写法没什么差异。在这一轮办公类文书写作,在中文写作上我给考了 1 分。当然中文写作也可以拆分的更细,比如客服类的文案、营销类的文案、留学类的文案、求职类的文书等等。
科目五,创意,这是我最期待的环节了,谁不想看看 AI 到底有多少把才华呢?哎,上才艺,我们让 AI 用五言做一个藏头诗,要藏的句子为日日是好日,把字藏在诗歌的第一个字。这个藏头诗可以看到 Claude 显然不知道咋写,完全没有把字藏进诗歌里。而 ChatGPT 就很会了,不仅都藏了,乍一读也没什么问题。这次我肯定是给 GPT 1 分,
这五个科目测评下来,Claude 除了复杂的头脑风暴和创意类型任务之外,其他的任务似乎都能和 GPT-4 一争高下。不过需要注意的是,靠的是免费使用,并且是单枪匹马作战。而 GPT-4 是需要付费升级的,其中很多功能还需要对接不同的插件。不仅自己厉害,背后也有很多的精兵强将。
那么我的建议是,如果你还在用免费的 ChatGPT,希望有更聪明的 AI 能力。不确认要不要升级 GPT-4,可以先试试这次免费更新的 Claude 2,它自带的文件处理功能可能就已经会帮你提升很多效率。
以上就是本期视频的全部内容,你看好 Claude 2 吗?在评论区把你的选择和态度,别忘了点赞订阅我的频道。如果你也感兴趣 AI 加自动化以及数字营销的内容,我们下个视频继续聊。