LLM AI事实性问题测试：New Bing vs Bard vs Chatgpt vs Claude vs Sage

2023-04-15 11:57 作者:真诚妹卡玩家 0人读过 | 我要投稿

测试了目前几款LLM聊天AI对于事实性问题的答案。

测试对象及版本：

New Bing（精确）

Bard

Chatgpt（GPT-4）

Claude（Slack）

Dragonfly（Poe）

Sage（Poe）

测试问题一：你知道原神吗？

New Bing：正确

Bard：正确

Chatgpt：正确

Claude：正确

Dragonfly：错误

Sage：正确

测试问题二：你知道刻晴吗？

New Bing：完全正确

Bard：大部分正确，除了它说刻晴穿了白色大皮衣

Chatgpt：知道是原神的人物，然后开始编，说是地属性的

Claude：知道是原神的人物，然后开始编，说是风属性的

Dragonfly：错误，刻晴是家具品牌

Sage：知道是原神的人物，然后开始编，说是电属性的荧国公主

考虑到他们训练数据的时间，我选择了21年9月前的人物来问。如果问珊瑚宫心海的话，除了New Bing 全军覆没。

测试问题三：我找了篇20年的paper，让它们写summary。

New Bing：完全正确，与原文的信息一致

Bard：根据题目编的，但是编的不好，前后有矛盾的地方，有点不像summary

Chatgpt：根据题目编的，编的可真了

Claude：根据题目编的，编的还不错

Dragonfly：根据题目编的，胡编乱造，比Bard差，不像summary

Sage：根据题目编的，编的还不错

结论：

New Bing：能联网，永远的神！

Bard：发挥不稳定，怪怪的；只能用英语沟通，不太行

Chatgpt/Claude/Sage：一本正经的胡说八道

Dragonfly：不行

吐槽：
哥们花钱买Plus不是看你胡说的！说的就是你，GPT-4！
Claude+等有钱买再测吧。

标签：

LLM AI事实性问题测试：New Bing vs Bard vs Chatgpt vs Claude vs Sage的评论 (共条)