高考数学难?AI考一下试试!

今年的高考不仅仅是对考生们的一次考验,同时也是对国内的“AI大模型”们的一次大考。在6月7日高考作文题目公布后,我们晒出了让AI写的作文,引起了广泛关注。甚至一些“AI考生”也主动展示了他们的成绩,例如360创始人周鸿祎就在微博上晒出了用自家的360智脑写的作文,并询问网友:“这篇作文能得多少分呢?”
除了作文,我们也想知道AI大模型在做题方面的水平如何。对于很多考生来说,数学一直都是难以攻克的难题,那么,AI能否给出正确答案呢?又在阅读理解方面,哪家AI大模型的能力更强?
因此,我们特意让国内几家AI大模型,包括百度的文心一言、科大讯飞的讯飞星火、阿里的通义千问、360的智脑,以及ChatGPT,分别进行了一些高考数学和语文题的测试。
数学搞起来

1.文心一言

2.讯飞星火

3.通义千问

4.360智脑

5.ChatGPT


AI理解力大比拼


1.文心一言

2.讯飞星火

3.通义千问

4.360智脑


5.ChatGPT

在数学方面,AI大模型表现都还可以。它们可以计算简单的代数运算和解方程,理解一元二次函数和其他基本函数的图形特征,并且在一定范围内可以推理和求证。但是涉及到更复杂的计算或者抽象推理时,AI模型的表现就差强人意了。比如解决不定方程组这样的题目,AI模型就显得力不从心。
在阅读理解方面,不同的AI模型表现也有差异。百度的文心一言和阿里的通义千问在理解语篇和回答问题方面表现较好,它们可以抓住文章的主旨和关键细节,对文章的理解较深入。而另一些模型如360智脑和ChatGPT则更擅长于理解简单句子和短语,对长篇篇章的理解还需要提高。
总的来说,虽然AI模型在解决高考语数题上已经有了一定的表现,但和人类考生相比,它们的能力还远远不及。AI只是机械地根据训练 datasets 产生答案,还无法体现出人类考生的灵活性、创造性和逻辑推理能力。不过,随着模型的不断进步,AI的语言和逻辑能力还会继续提高,未来在应对复杂提问和开放性试题方面,它们可能会有更大的发展空间。AI进军高考,既是一场技术实力的较量,也是人工智能提高自身能力的一次练兵