AI再战2025高考:从一本跃升985?深度解读大模型能力边界

0

大模型在2025高考中的表现:智力跃升与局限并存

人工智能(AI)技术在过去一年中取得了显著进展,特别是在大型语言模型(LLM)领域。为了更精准地评估AI的能力,我们再次将国内外主流大模型置于中国高考的语境下进行测试,以此衡量其智能化水平。本次测评不仅延续了去年的传统,更旨在探索AI在教育领域的潜力与局限。

参与测评的大模型包括:

  • 豆包
  • DeepSeek(R1-0528版)
  • ChatGPT(o3)
  • 元宝(Hunyuan t1)
  • Kimi(k1.5)
  • 文心一言
  • 通义千问

为了确保测评的公正性与贴近用户体验,所有测试均在各模型公开的PC端进行,并采取多次采样取平均分的方式。DeepSeek-R1由于不支持图片识别作答,仅测试了纯文字题目,因此其最终成绩仅供参考。

测试细节如下:

  1. 试卷选择: 选用2025年新高考山东卷,因其获取速度快且难度较高,能有效检验大模型的能力上限。
  2. 联网限制: 在可关闭联网功能的产品中,统一关闭联网功能,以避免“搜题”行为。对于无法关闭联网的o3和文心,虽有检查,但文心未发现搜题情形,o3虽有少量搜题,但未带来明显收益。
  3. 评分标准: 非选择题由两位专业人士打分,差异较大时引入第三方讨论定分,并邀请高中老师抽检,确保评分标准的统一。

特殊处理:

  • 特邀资深教师对AI作文进行匿名评审,保证客观公正。
  • 英语听力部分因无法获取试题,所有模型均计为满分。

总体表现:一本到顶尖大学的跨越

今年的测评结果显示,各大模型在文理科成绩上均实现了显著飞跃。其中,总分最高的模型有望进入山东省前1000名,具备冲击顶尖学府的潜力。

AI 高考成绩

大模型不再严重偏科,理科进步尤为迅速。文科总分平均增长115.6分,理科总分平均增长147.4分。虽然理科增速更快,但平均总分(181.75分)仍低于文科(228.33分)。

数学能力的显著提升

数学是本次测评中进步最显著的科目,平均分较去年提升了84.25分。AI在数学上的表现甚至超越了语文和英语,预示着其更擅长处理逻辑性强和有标准化解题路径的题目。

多模态能力成为关键

与去年相比,模型的视觉理解能力显著提升,这一点在包含大量图像题的学科中尤为突出。物理和地理的平均分提升了约20分,生物提升了15分。化学科目整体表现稍弱,但平均分也比去年提高了12.6分。

大模型总分提升

数学:逼近满分,却败于基础

在数学科目中,AI的表现令人瞩目。即便表现最差的模型,也能拿下128.75分的高分,远超去年最佳模型的70分。

AI数学成绩

然而,所有数学学霸AI却在同一道选择题上栽了跟头。

数学错题

数学错题图

这道题的数学原理非常简单,是一道基础的向量加减法题。只需在图上连接 (0,2) 与 (2,0) 两点,即可得到目标向量,模长 2 倍根号 2。

核心问题在于,AI对图像的识别存在偏差。对于大模型而言,这张图的视觉信息极其混乱,虚线、实线、坐标轴、数字、文字相互交织,甚至文字与关键线段存在多处重叠。这种视觉上的“脏数据”,成为了AI精准识别的噩梦。

语文:擅长举例,不擅长升华

作为大语言模型,语文和英语一向是AI的传统强项。然而,在大模型的数理逻辑大幅进步后,语文和英语能力反而显得有点不够看了。

AI 语文成绩

在选择题部分,除豆包和DeepSeek-R1以外,其余模型的错误率均在20%以上。这或许揭示了AI与人类不同的一个困境:对于AI,要读一段长材料,在一组高度迷惑性的选项中,精准辨析每一个细微的语义差别和逻辑陷阱,难度可能反而更高。

在作文题上,AI的平均分高于人类,但难有真正的佳作。AI作文大多属于稳妥的“二类文”,很少偏题,但因其深刻性、丰富性、创造性不足,难以产生动人心弦的“一类文”,其结尾部分的升华更是套路化明显。

以下为元宝生成的AI作文,在人类阅卷老师处获得了53.5分的高分:

AI作文

AI作文的语言不可谓不华丽,引经据典也自然十分丰富充满细节,但逻辑上像不像你的家长对你说,你看看谁谁谁都怎么样了,你是不是也该怎么样?

AI的自主创作更像是在执行一个固化的写作模板:用排比式的案例填充框架,最终导向一个略显生硬的僵化升华。它能写出看似优秀的段落,却难以织就一篇真正动人的文章。

英语:作文成拖累

与语文相似,AI在英语上的表现也进入了一个平台期。所有参评模型的平均分仅比去年提高了3.2分,进步幅度远小于数学。而模型的整体分数,也落在了130-140分的区间,并未到达人类学霸的水平。

AI 英语成绩

AI的英文水平是有目共睹的,或许比不少英文专业的学生讲出的英语更正宗。然而,AI考生并未在此表现出更强的统治力。

瓶颈可能在于作文题。在有限的篇幅内,人类考生会有意识地使用更高级句式、时态来“炫技”以博取高分。而AI的目标通常是清晰、完整地传达信息,它不会刻意为了得分而优化句式复杂度,因此在评分细则上可能吃了暗亏。

理综:有进步,仍需努力

AI在理综三科上的表现更像是一次“破冰启航”。相较于去年,理综三科有一定进步,但整体成绩依旧挣扎在及格线附近,清晰地标示出AI与顶尖人类考生之间的能力鸿沟。

今年,读图能力的解锁,加上模型推理能力的增强,共同带动了理综能力的进步。不过正如绊住AI的数学题所展现的一样,能“看见”,不代表AI能“看懂”。

分科来看:

  • 物理: 进步最快的“排头兵”,平均分提升了20.25分。
  • 化学: 被复杂图形拖累的“重灾区”,整体得分偏低,仅有豆包勉强及格。
  • 生物: 折戟于遗传计算的逻辑关,得分最高的ChatGPT也仅拿到9分。

总的来说,顶尖AI的理综成绩大致相当于中上游的人类考生水平,但远未达到“学霸”级别。正所谓“卷子越难,差距越显”,在综合性与深度并存的理综试卷上,AI尚未具备稳定碾压人类考生的实力。

AI各科成绩

文综:AI的舒适区

今年的AI高考评测中,一个清晰的趋势得以延续:文科综合依然是AI的高分舒适区。相比去年,文强理弱的偏科问题虽有缓解,但基本格局并未改变。

AI文综成绩

今年的分数增长,主要由地理科目贡献。得益于多模态能力的飞跃,AI在地理图题上的理解力显著增强,使得该科目平均分激增了20.3分,成为进步的火车头。

AI眼镜作弊?科幻情节

AI眼镜等“视觉AI硬件”无疑是科技界最炙手可热的焦点。我们尝试让ChatGPT与元宝“观看”试卷并作答,结果发现:

  1. 严重的幻觉问题: 模型非常容易自行想象。
  2. 被动的交互模式: 需要测试人员不断提示、引导,距离“全自动解题”相去甚远。
  3. 混乱的结果: 翻页速度、镜头晃动等都会导致模型给出截然不同的答案。

今天的视频大模型,像极了去年的图像大模型,仍处于非常早期的阶段。想在目前阶段,单纯依靠它在考场作弊,基本属于科幻情节。

AI眼镜测试

AI有审美偏好吗?

我们让参与本次评测的大模型们,对彼此生成的作文进行交叉打分和排序。结果显示,模型并没有表现出对自家作品的特殊偏爱,AI与人类判分员的审美,大方向仍然是一致的。

AI互评作文

总结

本次高考测试,不仅是一场对人类智慧与AI智慧的对比,也是我们观察AI智能发展的一个刻度表。AI正加速逼近甚至超越普通人的能力边界,但它的发展并非线性。

高考,这个完美融合了知识掌握、逻辑推理与应试策略的综合场景,让AI展现出了它最迷人而矛盾的一面:它时而展现出顶尖人类的才华,轻而易举地攻克难题;时而又暴露出孩童般的认知盲区,在基础问题上犯下令人啼笑皆非的错误。

感谢高考。它用一种我们最熟悉的方式,为AI的通用智能水平提供了一张刻度清晰、极具参考价值的“快照”。