欢迎光临散文网 会员登陆 & 注册

当我尝试上点难度,去比较当下【讯飞星火】和【GPT-3.5】的表现

2023-06-10 15:04 作者:星空浊核  | 我要投稿

就在2023年6月9日下午2点,讯飞星火召开了一次网络公开发布会,宣布讯飞星火大模型进入1.5版本,提高了很多东西。

讯飞星火V1.5升级发布会&讯飞语伴_哔哩哔哩_bilibili

与此同时,讯飞也表达了他们的野心:

科大讯飞刘庆峰:讯飞星火10月实现中文超越ChatGPT_哔哩哔哩_bilibili

可以说,不指望真的超过美国,但至少在中文领域,我是希望咱们有自己相对天然的语料库优势,至少不输当下的GPT-3.5。

网上的对比可能有些委婉,我决定上点难度。结果,我切实感受到了当下的距离:

第一轮提问:关于道家修仙理论的讲解


讯飞的表现比较简洁,参考内容不多,不过考虑我自己也对修仙不怎么了解,姑且认为获取了些梗概。


相比之下,GPT-3.5的答案其实我也不满意,不过,GPT-3.5的内容比讯飞的多了不少,在我能够自行通过网络搜索复核的前提下,还是提供了不少的启发性回答。

这一轮,我的主观评分是讯飞获得60分,GPT-3.5获得70分。注意,实际多少分各位心里自会有杆秤,我仅做我的主观评分。

第二轮提问:关于数字化生命的探讨



讯飞星火这边的表现有点……没太理解两个问题的区别是什么?这个问题其实不止一次出现在讯飞星火里,就是说你只要不大动问题点,他怎么答都是类似的。



GPT-3.5的表现也是马马虎虎,不过还是和第一轮提问的结论类似,在我能自主搜索的前提下,提供了更多的启发点。

这一轮,我的主观评分是讯飞获得50分,GPT-3.5获得70分。此时我已经不太想给讯飞打及格分了。

第三提问:讨论商战科幻小说的构架

先说明,我知道这个题材本身就很有难度,但正因为有难度,才能探索出双方的表现差距到底如何。


说实话讯飞整个提问我都跳过了一部分问题……因为我实在问不下去了,这提供的都什么资料……

GPT-3.5提供的资料有40%内容,经搜索发现是杜撰的,但也确实存在真实的内容,所以我进一步进行了追问(讯飞我压根没法追问……)

这一轮,我已经不想评分了……因为差距肉眼可见。

我本来想做一份总结的,但是转眼一想,假如总结交给二者分别完成,那么结果如何呢?

于是有了一份额外的对比:

直至看到这两份总结报告,我才有了一种“看起来二者总算差距不大”的感觉。

当我尝试上点难度,去比较当下【讯飞星火】和【GPT-3.5】的表现的评论 (共 条)

分享到微博请遵守国家法律