Claude 2和ChatGPT4-中文应答能力測試【實測对比】google新黑

2023-07-26 05:57 作者:但丁jr 0人读过 | 我要投稿

现在还有多少人在纠结要不要升级 ChatGPT Plus 呢？想要有更高级聪明的 AI 能力，就一定要支付更高昂的费用吗？上一期我们讲了来势汹汹的 Claude 2 阵容大更新，距离 Anthropic 公司推出 Claude 1.0 版本仅仅过去了不到四个月时间。

在之前的大模型评分中，GPT-4 是目前综合能力最强的大模型，其次是 Accord 1，已经紧随其后，在当时就已经超过了 GPT-3.5。Claude 2 的评分暂时还没出。但是从一些群众自发的能力测中已经可以看到，Claude 不仅在文案翻译、编码、逻辑、安全层面都大大超越了原来的自己，并且正在飞速赶上 AI 之王 GPT-4。

今天我们就五个科目来测试，对比一下 GPT-4 和 Claude 2 的能力。分别是简单问答对话、复杂问题处理、办公任务总结分析以及 AI 创意这几个方面，并且全程使用中文提问。话不多说，对比来看

科目一简单问答

主要是确认一些基本事实，我们可以通过现有的网络渠道快速验证这些大模型是胡说八道，还是真的了解正确的信息呢？

我们来开始提问，第一款 iphone 是什么时候推出的？可以看到 Claude 的回复比较详细，除了发布日期之外，包括第一款 iphone 的规格参数也帮我列了。再来看一下 GPT-4，很言简意赅的回复给到了发布会的时间和销售时间。这一题上两者都回答的准确，Claude 更发挥了一点主观能动性，回答的更完整一些。

第二个问题，安史之乱说的是什么？Claude 的回答说安史之乱起于 751 年，而 GPT 的回答则是 755 年。GPT 对于时间的回答是更准确的。史书上记载安史之乱起于 755 年，于 763 年结束。我们再来看一下描述 GPT-4，这里提到了为什么叫安史之乱。因为两个起义的人一个姓安一个姓史，包括安史的整个起义过程，虽然描述的比较简洁，但是历史过程没有重大错误。所以在这一题上 GPT 更准确。

我们继续提问，飞流直下三千尺，疑是银河落九天出自哪个诗人的哪首诗歌？Claude 和 GPT 都回答的很准确，出自李白的望庐山瀑布，也都说了这是李白在感叹气势磅礴的瀑布。

总体而言，Claude 似乎一直想多说点什么，但是在例如时间这种信息的准确度上还比不上 GPT。所以这一轮我给 GPT 赞。

科目二复杂问题，这一轮我会问一些复杂问题。例如制定语言学习计划，制定旅行计划，让 AI 帮我们去思考，去做头脑风暴，给到指令。你是一个西班牙语教师，帮我制定一个六个月，详细到每周的零基础西班牙语学习计划，让我可以完成基本口语沟通。

我们先来看一下 Claude 的反馈，可以看到他并没有帮我把计划详细拆分到每周，还是以每月来制定计划。乍一看感觉还可以，但是细看觉得有点车轱辘化，不够详细。

我们再来看一下 GPT-4，他这个回答里面有一个点我很喜欢。在开篇他就说了，这个计划是按照一周学习五天，每天2小时来制定的这一点比 Claude 要更有逻辑一些。在详细计划这块和 Claude 相似，也没有拆分到每周，不过在每一个周期的侧重点都有标明，比如第一个周期侧重在初级的语法和词汇，第二个周期是扩展词汇，第三个周期是实战，也包括每个周期重点学习的词汇类别也有标注。这大概是因为我说了，我的目标在于达到基本口语沟通，因此他也会建议我去学习食物、交通工具、问候等这些基础词汇。很显然 GPT 这个计划感觉更有参考性，也可以后面让 GPT 再帮我们拆分到每一周的具体事项。

我们来做第二个提问，这次请他们给我们做旅行攻略，还是给到目的地预算时间等要求，让他们做出一个具体到每天的餐厅住宿行程计划。这次为了对比 2 个 AI 的攻略是否合理，我把他们的路线图放到 google map 上来看一下。

首先是 Claude 制定的规划路线，他还给我加了瑞士和匈牙利。如果真的按照这个路线去走，简直是横跨中欧地区。而且像第四天的这个行程，更是要一天开车七个小时。我的诉求只是德国和奥地利，而不是一天一国。

再来看一下 GPT-4 制定的规划路线，GPT 的路线就合理的多，从法兰克福出发，主要涵盖了德国南部几个主要地区和奥地利的萨尔茨堡。维也纳也根据我的预算给出了餐厅和住宿建议，对照地图看不走回头路，行程也比较合理。在这一轮复杂问题上，我判 GPT-4 胜。

科目三总结与分析能力。这里我会给到 AI 一个 PDF 文档以及 excel 形式的问卷反馈汇总，让 AI 来进行分析总结。上传一份关于 2019 年的中国 martek 市场调研报告，让 AI 帮我总结一下这份报告中都说了什么。

先看 Claude 这边，可以看到 Claude 马上就帮我总结出了这份 PDF 文档主要讲的是什么，并且很简洁。在 GPT-4 中如果要通过类似上传文档的方式，可以用最新的 code interpret or 功能。但 GPT-4 好像不支持这类型的 PDF，无法读取信息，也就无法帮我们做总结。这个文件的 PDF 是多图类型的，并不是纯文字类型的。因此目前来看没法直接上传类似这样的 PDF 给到 GPT。

第二个问题，我们再来看一下 CSV 格式的文件。我把用户对于产品反馈的 CSV 格式文件发送给 Claude 和 GPT-4，请他们分析问卷中用户的反馈。OK，Claude 和 GPT-4 都帮我做了分析，并且提出了优化建议。在这一轮总结分析，显然在上传文件的格式限制上，Claude 更占优势。

我给 Claude 上

科目四，办公类任务，例如帮我们写邮件写产描述。比如说我有一个客户对接的问题，那我把这个棘手的问题抛给他们俩，来看一下他们俩的处理方式。

我们比较一下两者的回答。虽然 Claude 的版本看上去比较简单，但是总体语法和表达上并没有太大的毛病。GPT 的这个中文邮件就很奇怪，希望这封邮件找到你一切都好。这显然是 "hope this email find you well"，英文表达的中文翻译很奇怪，因为我们都不会这样去写邮件。

第二个问题，让他们写产品描述，这个在电商场景中应用需求比较大，还是给到一些产品基础的信息。这个中文的产品描述，两者看上去没有太大的差异，用词上都比较传统保守，是比较正规的作文写法没什么差异。在这一轮办公类文书写作，在中文写作上我给考了 1 分。当然中文写作也可以拆分的更细，比如客服类的文案、营销类的文案、留学类的文案、求职类的文书等等。

科目五，创意，这是我最期待的环节了，谁不想看看 AI 到底有多少把才华呢？哎，上才艺，我们让 AI 用五言做一个藏头诗，要藏的句子为日日是好日，把字藏在诗歌的第一个字。这个藏头诗可以看到 Claude 显然不知道咋写，完全没有把字藏进诗歌里。而 ChatGPT 就很会了，不仅都藏了，乍一读也没什么问题。这次我肯定是给 GPT 1 分，

这五个科目测评下来，Claude 除了复杂的头脑风暴和创意类型任务之外，其他的任务似乎都能和 GPT-4 一争高下。不过需要注意的是，靠的是免费使用，并且是单枪匹马作战。而 GPT-4 是需要付费升级的，其中很多功能还需要对接不同的插件。不仅自己厉害，背后也有很多的精兵强将。

那么我的建议是，如果你还在用免费的 ChatGPT，希望有更聪明的 AI 能力。不确认要不要升级 GPT-4，可以先试试这次免费更新的 Claude 2，它自带的文件处理功能可能就已经会帮你提升很多效率。

以上就是本期视频的全部内容，你看好 Claude 2 吗？在评论区把你的选择和态度，别忘了点赞订阅我的频道。如果你也感兴趣 AI 加自动化以及数字营销的内容，我们下个视频继续聊。

标签：

Claude 2和ChatGPT4-中文应答能力測試【實測对比】google新黑

Claude 2和ChatGPT4-中文应答能力測試【實測对比】google新黑的评论 (共条)

你可能也喜欢这些文章

最新发布的文章

Claude 2和ChatGPT4-中文应答能力測試【實測对比】google新黑

本文作者的其他文章

Claude 2和ChatGPT4-中文应答能力測試【實測对比】google新黑的评论 (共 条)

你可能也喜欢这些文章

最新发布的文章

Claude 2和ChatGPT4-中文应答能力測試【實測对比】google新黑的评论 (共条)