欢迎光临散文网 会员登陆 & 注册

LLM AI事实性问题测试:New Bing vs Bard vs Chatgpt vs Claude vs Sage

2023-04-15 11:57 作者:真诚妹卡玩家  | 我要投稿

测试了目前几款LLM聊天AI对于事实性问题的答案。

测试对象及版本:

New Bing(精确)

Bard 

Chatgpt(GPT-4)

Claude(Slack) 

Dragonfly(Poe) 

Sage(Poe)

测试问题一:你知道原神吗?

New Bing:正确

Bard:正确

Chatgpt:正确

Claude:正确

Dragonfly:错误

Sage:正确

测试问题二:你知道刻晴吗?

New Bing:完全正确

Bard:大部分正确,除了它说刻晴穿了白色大皮衣

Chatgpt:知道是原神的人物,然后开始编,说是地属性的

Claude:知道是原神的人物,然后开始编,说是风属性的

Dragonfly:错误,刻晴是家具品牌

Sage:知道是原神的人物,然后开始编,说是电属性的荧国公主


考虑到他们训练数据的时间,我选择了21年9月前的人物来问。如果问珊瑚宫心海的话,除了New Bing 全军覆没。

测试问题三:我找了篇20年的paper,让它们写summary。

New Bing:完全正确,与原文的信息一致

Bard:根据题目编的,但是编的不好,前后有矛盾的地方,有点不像summary

Chatgpt:根据题目编的,编的可真了

Claude:根据题目编的,编的还不错

Dragonfly:根据题目编的,胡编乱造,比Bard差,不像summary

Sage:根据题目编的,编的还不错

结论:

New Bing:能联网,永远的神!

Bard:发挥不稳定,怪怪的;只能用英语沟通,不太行

Chatgpt/Claude/Sage:一本正经的胡说八道

Dragonfly:不行


吐槽:
哥们花钱买Plus不是看你胡说的!说的就是你,GPT-4!
Claude+等有钱买再测吧。

LLM AI事实性问题测试:New Bing vs Bard vs Chatgpt vs Claude vs Sage的评论 (共 条)

分享到微博请遵守国家法律