当我尝试上点难度,去比较当下【讯飞星火】和【GPT-3.5】的表现
就在2023年6月9日下午2点,讯飞星火召开了一次网络公开发布会,宣布讯飞星火大模型进入1.5版本,提高了很多东西。
讯飞星火V1.5升级发布会&讯飞语伴_哔哩哔哩_bilibili
与此同时,讯飞也表达了他们的野心:
科大讯飞刘庆峰:讯飞星火10月实现中文超越ChatGPT_哔哩哔哩_bilibili
可以说,不指望真的超过美国,但至少在中文领域,我是希望咱们有自己相对天然的语料库优势,至少不输当下的GPT-3.5。
网上的对比可能有些委婉,我决定上点难度。结果,我切实感受到了当下的距离:
第一轮提问:关于道家修仙理论的讲解

讯飞的表现比较简洁,参考内容不多,不过考虑我自己也对修仙不怎么了解,姑且认为获取了些梗概。

相比之下,GPT-3.5的答案其实我也不满意,不过,GPT-3.5的内容比讯飞的多了不少,在我能够自行通过网络搜索复核的前提下,还是提供了不少的启发性回答。
这一轮,我的主观评分是讯飞获得60分,GPT-3.5获得70分。注意,实际多少分各位心里自会有杆秤,我仅做我的主观评分。
第二轮提问:关于数字化生命的探讨

讯飞星火这边的表现有点……没太理解两个问题的区别是什么?这个问题其实不止一次出现在讯飞星火里,就是说你只要不大动问题点,他怎么答都是类似的。

GPT-3.5的表现也是马马虎虎,不过还是和第一轮提问的结论类似,在我能自主搜索的前提下,提供了更多的启发点。
这一轮,我的主观评分是讯飞获得50分,GPT-3.5获得70分。此时我已经不太想给讯飞打及格分了。
第三轮提问:讨论商战科幻小说的构架
先说明,我知道这个题材本身就很有难度,但正因为有难度,才能探索出双方的表现差距到底如何。

说实话讯飞整个提问我都跳过了一部分问题……因为我实在问不下去了,这提供的都什么资料……

GPT-3.5提供的资料有40%内容,经搜索发现是杜撰的,但也确实存在真实的内容,所以我进一步进行了追问(讯飞我压根没法追问……)
这一轮,我已经不想评分了……因为差距肉眼可见。

我本来想做一份总结的,但是转眼一想,假如总结交给二者分别完成,那么结果如何呢?
于是有了一份额外的对比:


直至看到这两份总结报告,我才有了一种“看起来二者总算差距不大”的感觉。