LLM AI事实性问题测试:New Bing vs Bard vs Chatgpt vs Claude vs Sage
测试了目前几款LLM聊天AI对于事实性问题的答案。
测试对象及版本:
New Bing(精确)
Bard
Chatgpt(GPT-4)
Claude(Slack)
Dragonfly(Poe)
Sage(Poe)
测试问题一:你知道原神吗?
New Bing:正确
Bard:正确
Chatgpt:正确
Claude:正确
Dragonfly:错误
Sage:正确
测试问题二:你知道刻晴吗?
New Bing:完全正确
Bard:大部分正确,除了它说刻晴穿了白色大皮衣
Chatgpt:知道是原神的人物,然后开始编,说是地属性的
Claude:知道是原神的人物,然后开始编,说是风属性的
Dragonfly:错误,刻晴是家具品牌
Sage:知道是原神的人物,然后开始编,说是电属性的荧国公主
考虑到他们训练数据的时间,我选择了21年9月前的人物来问。如果问珊瑚宫心海的话,除了New Bing 全军覆没。
测试问题三:我找了篇20年的paper,让它们写summary。
New Bing:完全正确,与原文的信息一致
Bard:根据题目编的,但是编的不好,前后有矛盾的地方,有点不像summary
Chatgpt:根据题目编的,编的可真了
Claude:根据题目编的,编的还不错
Dragonfly:根据题目编的,胡编乱造,比Bard差,不像summary
Sage:根据题目编的,编的还不错
结论:
New Bing:能联网,永远的神!
Bard:发挥不稳定,怪怪的;只能用英语沟通,不太行
Chatgpt/Claude/Sage:一本正经的胡说八道
Dragonfly:不行
吐槽:
哥们花钱买Plus不是看你胡说的!说的就是你,GPT-4!
Claude+等有钱买再测吧。