当我尝试上点难度，去比较当下【讯飞星火】和【GPT-3.5】的表现

2023-06-10 15:04 作者:星空浊核 0人读过 | 我要投稿

就在2023年6月9日下午2点，讯飞星火召开了一次网络公开发布会，宣布讯飞星火大模型进入1.5版本，提高了很多东西。

与此同时，讯飞也表达了他们的野心：

可以说，不指望真的超过美国，但至少在中文领域，我是希望咱们有自己相对天然的语料库优势，至少不输当下的GPT-3.5。

网上的对比可能有些委婉，我决定上点难度。结果，我切实感受到了当下的距离：

第一轮提问：关于道家修仙理论的讲解

讯飞的表现比较简洁，参考内容不多，不过考虑我自己也对修仙不怎么了解，姑且认为获取了些梗概。

相比之下，GPT-3.5的答案其实我也不满意，不过，GPT-3.5的内容比讯飞的多了不少，在我能够自行通过网络搜索复核的前提下，还是提供了不少的启发性回答。

这一轮，我的主观评分是讯飞获得60分，GPT-3.5获得70分。注意，实际多少分各位心里自会有杆秤，我仅做我的主观评分。

第二轮提问：关于数字化生命的探讨

讯飞星火这边的表现有点……没太理解两个问题的区别是什么？这个问题其实不止一次出现在讯飞星火里，就是说你只要不大动问题点，他怎么答都是类似的。

GPT-3.5的表现也是马马虎虎，不过还是和第一轮提问的结论类似，在我能自主搜索的前提下，提供了更多的启发点。

这一轮，我的主观评分是讯飞获得50分，GPT-3.5获得70分。此时我已经不太想给讯飞打及格分了。

第三轮提问：讨论商战科幻小说的构架

先说明，我知道这个题材本身就很有难度，但正因为有难度，才能探索出双方的表现差距到底如何。

说实话讯飞整个提问我都跳过了一部分问题……因为我实在问不下去了，这提供的都什么资料……

GPT-3.5提供的资料有40%内容，经搜索发现是杜撰的，但也确实存在真实的内容，所以我进一步进行了追问（讯飞我压根没法追问……）

这一轮，我已经不想评分了……因为差距肉眼可见。

我本来想做一份总结的，但是转眼一想，假如总结交给二者分别完成，那么结果如何呢？

于是有了一份额外的对比：

直至看到这两份总结报告，我才有了一种“看起来二者总算差距不大”的感觉。

当我尝试上点难度，去比较当下【讯飞星火】和【GPT-3.5】的表现的评论 (共条)