New Bing简单评测
等了10天,终于等到了邮件,可惜New Bing早已被削弱。尽管如此,还是得赶紧测试一波,冲!

我总共测试了多个方面,时间和精力所限,可能在考察维度的类别方面分得不是很有调理,还请大家见谅。
1. 稳定性

相对于ChatGPT(比如该视频23:27处的例子),New Bing的稳定性似乎更好。让New Bing对给定的两个句子进行情感分析,其给出的结论均正确,且清除记录重新提问后仍可得到正确结论。原视频“五星级酒店的拖鞋很薄”的例子我也测试了,也能得到稳定、正确的结论,我最后还问New Bing“你确定吗”,得到了肯定的回复(忘了截图了)。
2. 知识更新
相对于ChatGPT(还是这个视频,25:37处的例子),我认为New Bing在用户试图对其进行实时知识更新时表现更好一些,虽然仍然有点儿“认死理”,但还是照着要求做了,能够兼顾用户要求和原有知识。不过,这一评判很主观,下图中New Bing的表现可能仍无法满足一些用户的需求。

3. 逻辑推理

跟ChatGPT一样,还是不太行。面对我的问题,New Bing参考了与问题不相关的来源,推理过程和结果是错误的。
4. 事实的正确性与时效性

New Bing能够联网查询具有时效性的新信息,但在生成自然语言的过程中仍然会出现错误。在上图的例子中,正确的回答应该是阿森纳57分、曼城55分,分差为2分。New Bing引用的链接给出了正确的信息,但不知为何他自己看着正确答案却说错了。
我还测试了New Bing对网络流行语的解释,如下图所示。

我猜测New Bing对网络流行用语解释的正确性可能取决于网络语料的丰富程度。对于较老的、来源符合文明规范的梗,在语料充足的情况下,New Bing能够给出正确的解释,如下图中的第一组问答;对于较新的、来源包含冒犯性或粗俗内容的网络流行语,New Bing容易引用错误的内容,从而给出错误的解释,如下图中的第二组问答。我认为这一现象与技术的关系不大,而是涉及伦理问题。
当然,对于事实性问题,New Bing信口开河的情况还是时有发生。比如我问他一个不存在的地方有哪些名胜古迹,他用其他地方的东西来“充数”。引用的链接虽然真实存在,但与我瞎编的地名没有任何关系。

5. 复杂目标导向
与ChatGPT相同,New Bing在复杂目标导向的对话任务中仍有缺陷,有的时候聊着聊着就跑偏了。

上图的例子中,当我说“我去打个电话”时,New Bing其实知道我在聊电脑(如下图所示)。但不知为何,我接着说“你能推荐几个吗”的时候,他就开始给我推荐美食了。

6. 情感对话

“削弱”后的New Bing具有对话轮次限制,我正想和他聊的时候对话便被迫戛然而止,这一限制意味着其暂时无法在情感对话应用层面取得较好的效果。不过,就有限的对话来看,基本的共情还是可以做到的。如果未来New Bing放宽或取消对话轮次限制,并应用更好的情感回复生成策略,其潜力还是很可观的。
7. 复杂语义理解
让New Bing解释讽刺意义的句子,其给出的回答是错误的。

从回答来看,其并没有完整地对给定句子进行分析。对反讽意味的语句进行解读似乎是对当前各种语言模型都很棘手的难题。
8. 翻译
只翻译了一段,见下图。

可以感觉出New Bing在尽力翻译出诗意,但个人认为仍有可以改进的地方:第二句的“所困”与第一句的“困”用词重复;第三句的“有人”机翻痕迹太重,与原意不合;整体用词过于口语化。在追求文学性要求的翻译任务上,New Bing与人类尚有差距。
附上QQ音乐的翻译:
夜莺深锁金笼 / 我也被现实迷网牵缠 / 何人可重燃我心 / 希望前途带我重生
9. 代码生成
对于简单的任务和流行程度高的语言,New Bing的表现相对较好,如下图所示。我让他做一道从洛谷上找的简单的算法题,他在提出免责声明之后给出了代码,正确性没有问题,性能上还有优化的空间。

对于流行度不太高的语言或稍复杂的要求,New Bing不能完全胜任,如下图所示。

上图中,我首先让New Bing用lilypond语言写《小星星》的曲谱代码,其生成的结果大体正确,但第一小节的“c c g g”应改为“c c g' g”。在我让New Bing改用D大调重新生成代码后,还是会出现错误:第一小节的“d d a a”应改为“d d a' a”,且所有的“f#”应改为“fis”。
我在刷新之后让New Bing在不先写C大调的《小星星》的情况下直接写D大调双声部的(对话界面忘截图了),其给出的代码在修正语法错误后运行得到的结果如下图所示。了解音乐的朋友们肯定能看出来问题在哪儿。作者的名字被设定为“Traditional”,可能与其参考来源有关。

10. 文本生成
让New Bing写高考作文,我没想到他还先列了个大纲。

虽然生成的文章肯定不如优秀学生写的(比如“中国人的品格”作为层次拔高的段落应该放到后面比较好,此外还有一些论述方面的问题),但也不错了。可能不少学生在考场上写的还真不如他。
我还尝试让New Bing生成项目计划书、开题报告等应用类文本。我反复试了好几次,可能是考虑到学术诚信等问题,他大概率不能直接生成有关文本,但可以提出比较实际的方案。我认为New Bing的现有功能足以为有需求的人指明方向,能够提高科研效率。

需要注意的是,New Bing给出的英文参考文献通常都是真实的,我反复试了几次对话,给出的参考文献只有10%左右没有查到,但中文文献基本都是他自己编的(除非是像上图直接给出url链接的那种),所以用他的时候记得查证一下。

11. 阅读
这个视频已经很好地展示了New Bing阅读论文和代码的功能,这里就不再赘述了。我试了一下,不让他联网是不行的,但联网搜索也不能保证输出内容的准确性,所以目前New Bing的定位应当是作为辅助工具,不能完全代替阅读。


结语
尽管整篇文章看着“挑刺”的成分大,但这两天使用下来,我最大的感受其实是非常兴奋的。能够用上这样一个功能强大的工具(尽管是削弱后的),能够亲眼见证这类新成果的诞生、应用,是一种荣幸。历史车轮滚滚向前,无论是支持还是抵制,技术本身的发展不以个人意志为转移,我们能做的就是接纳新技术、新成果,并倡导对其合理、合法的使用,使得其更好地服务于人类社会。