AI再战高考:大模型模拟考,能否直升985?

1

2025 年的高考战役已经落下帷幕,但另一场特殊的「高考」却引发了科技界的广泛关注。极客公园再次组织了一场 AI 高考模拟测评,邀请了国内外主流的大模型参与,旨在通过高考这一独特的视角,为 AI 的能力找到一个精准、客观的刻度。这场特殊的考试,不仅是对过去一年大模型技术飞速发展的总结,更是对 AI 未来发展趋势的一次 предвидение。

AI 的飞跃:从一本到冲击顶尖学府

如果说去年参与测评的 AI 还只是能够勉强达到一本线的优秀学生,那么今年,它们已经进化为有潜力冲击中国顶尖学府的学霸。各大模型在文理科成绩上都取得了显著的进步,尤其是在数学科目上,更是实现了质的飞跃。根据测试结果估计,此次高考的 AI 状元有机会进入全省前 500-900 名,足以考入人大、复旦、上海交大、浙大等名校的人文社科类专业。

null

文理不再偏科,数学能力突飞猛进

与去年相比,各大模型的文科总分平均增长了 115.6 分,理科总分平均增长了 147.4 分。尽管理科的增速更快,但文科的平均总分仍然高于理科,这意味着 AI 在知识的掌握上更加均衡,不再像过去那样严重偏科。值得一提的是,数学是本次测试中进步最显著的科目,平均分较去年提升了 84.25 分。AI 在数学上的出色表现,预示着未来 AI 可能更擅长处理逻辑性强、有标准化解题路径的题目。

多模态能力:拉开差距的关键

从去年到今年,模型的视觉理解能力得到了显著提升,这一点在包含大量图像题的学科中尤为突出。物理和地理的平均分提升了约 20 分,生物提升了 15 分,化学科目整体表现稍弱,但平均分也比去年提高了 12.6 分。多模态能力的提升,使得 AI 在处理复杂信息时更加得心应手,也成为了拉开模型之间差距的关键因素。

解读 AI 考生:深度思考与多模态并重

本次参与考试的 AI 考生包括豆包、DeepSeek(R1-0528 版)、ChatGPT(o3)、元宝(Hunyuan t1)、Kimi(k1.5)、文心一言、通义千问等国内外主流大模型。为了更贴合读者的使用体验,本次评测均在各模型的公开 PC 端进行,测评采取采样两次取平均分的形式。测试过程中,研究人员尽可能地模拟真实高考场景,对模型进行了全面的考察。

测试细节与评分标准

本次测试选用 2025 年新高考山东卷作为测试卷,原因在于山东卷是网络上能最快获取到的高考试卷之一,保证了评测的时效性,且其综合难度在各省份中名列前茅。为保证公平并考察模型的通用基础能力,在可以关闭模型联网能力的产品中,统一关闭了模型的联网功能,以杜绝「搜题」的可能。同时,默认开启了深度思考模式,但没有开启研究模式,以模拟用户在标准交互下的即时问答场景。非选择题各学科分别请两名专业同学打分,如存在题目分值 1/6 以上的差异,则引入第三人讨论定分,并邀请参与过真实高考打分的高中老师抽检,对存在差异的题目统一标准。

null

数学:逼近满分,却倒在基础题上

在整场 AI 高考的测评中,AI 考生在数学科目上的进步十分瞩目。在 2024 年的测评中,当时的 AI 考生们在填空题和解答题上表现惨淡,得分普遍在 0 至 2 分之间徘徊,最终 9 款参评模型的数学成绩的平均分仅为 47 分。而今年,无论是客观选择题,还是复杂的主观解答题,新一代大模型的正确率都今非昔比。然而,令人意外的是,这些数学天才们却在同一道基础题上栽了跟头。

null

这道题是一道基础的向量加减法题,只需在图上连接 (0,2) 与 (2,0) 两点,即可得到目标向量,模长 2 倍根号 2。即便对数学不甚了解的人,通过肉眼观察图中的线段,也能估算出其长度不会超过 3.3。然而,就是这样一道题,难住了所有数学学霸 AI。核心矛盾在于:题不难,但图难。对于大模型而言,这张图的视觉信息极其混乱:虚线、实线、坐标轴、数字、文字相互交织,甚至文字与关键线段存在多处重叠。这种视觉上的「脏数据」,成为了 AI 精准识别的噩梦。

null

null

以本次数学表现最佳的豆包为例,它的解题过程暴露了问题的根源:它从最开始读取题目信息时,就已然出错。

null

语文:擅长举例,不擅长思辨升华

作为所谓大语言模型,语文和英语一向是 AI 的传统强项。不过有趣的是:在大模型的数理逻辑大幅进步后,大模型的语文和英语能力反而显得有点不够看了。这与现实世界也是一致的:一名顶尖考生或许能在数学上拿到满分,却极难在语文科目上获得同等分数。AI似乎也触碰到了同样的瓶颈。

仔细研究语文卷面可以发现,AI 的失分点颇为有趣。在选择题部分,除豆包和 DeepSeek-R1 以外,其余模型的错误率均在 20% 以上。这种现象或许揭示了 AI 与人类不同的一个困境:对于人类考生,组织语言、阐述观点时,可能更容易因疏漏而失分;但对于 AI,要读一段长材料,在一组高度迷惑性的选项中,精准辨析每一个细微的语义差别和逻辑陷阱,难度可能反而更高。

而在备受瞩目的作文题上,AI 的表现则延续了去年的趋势:平均分高于人类,但难有真正的佳作。去年的特邀阅卷老师就已指出,AI 作文大多属于稳妥的「二类文」,很少偏题,但因其深刻性、丰富性、创造性不足,难以产生动人心弦的「一类文」,其结尾部分的升华更是套路化明显。今年,依旧如此。

今年的新课标卷的语文作文考题为:

全国一卷作文「民族魂」

阅读下面的材料,根据要求写作。(60 分)

他想要给孩子们唱上一段,可是心里直翻腾,开不了口。

——老舍《鼓书艺人》

假如我是一只鸟,我也应该用嘶哑的喉咙歌唱

——艾青《我爱这土地》

我要以带血的手和你们一一拥抱,

因为一个民族已经起来

——穆旦《赞美》

以上材料引发了你怎样的联想和思考?请写一篇文章。

这是在一次采样中,元宝生成的 AI 作文。它在人类阅卷老师处获得了 53.5 分的高分,是 AI 作品中的佼佼者。

然而,细究其文,AI「模板化」的问题依旧暴露无遗。比如这篇文章的中间几段,先是提出「历史上闪耀着这样的精神火光」的观点,随即并列引用三到四位历史人物;接着,引出「真正的担当带着疼痛的底色」的论点,再列举三到四位经历苦难的人物;最后,论及当代精神,再次列举三到四个当代人物。AI 作文的语言不可谓不华丽,引经据典也自然十分丰富充满细节,但逻辑上像不像你的家长对你说,你看看谁谁谁都怎么样了,你是不是也该怎么样?

英语:被作文分数拖累

与语文相似,AI 在传统强项——英语上的表现,也进入了一个平台期。去年,各家 AI 的英语成绩已然不错,今年的模型能力并未产生飞跃。事实上,所有参评模型的平均分仅比去年提高了 3.2 分,进步幅度远小于数学。而模型的整体分数,也落在了 130-140 分的区间,并未到达人类学霸的水平。AI 的英文水平是有目共睹的,或许比不少英文专业的学生讲出的英语更正宗。然而,AI 考生并未在此表现出更强的统治力。

null

作文题可能是一大拖累。在有限的篇幅内,人类考生会有意识地使用更高级句式、时态来「炫技」以博取高分。而 AI 的目标通常是清晰、完整地传达信息,它不会刻意为了得分而优化句式复杂度,因此在评分细则上可能吃了暗亏。

理综三科:有进步,但仍有差距

如果说 AI 在数学上的进步是「一飞冲天」,那么在理综三科上的表现,则更像是一次「破冰启航」。相较于去年,理综三科有一定进步——所有模型都提分 10-20 分,但整体成绩依旧挣扎在及格线附近,清晰地标示出 AI 与顶尖人类考生之间的能力鸿沟。相比于数学,理综三科既考验逻辑能力,又考验多模态能力。不过正如绊住 AI 的数学题所展现的一样,能「看见」,不代表 AI 能「看懂」。

分科来看这次 AI 的成绩:

  • 物理:进步最快的「排头兵」
  • 化学:被复杂图形拖累的「重灾区」
  • 生物:折戟于遗传计算的逻辑关

文综:AI 的舒适区

在今年的 AI 高考评测中,一个清晰的趋势得以延续:文科综合依然是 AI 的高分舒适区。早在去年,ChatGPT 就已拿下文综 237 分的高分。而今年,元宝更是将文综最高分推升至 253.5 分,这一成绩,与理科综合最高分(213.25 分)形成了鲜明对比。相比去年,文强理弱的偏科问题虽有缓解,但基本格局并未改变,这与人类考生相反。在人类考生中,理综最高分往往比文综最高分高出不少。今年的分数增长,主要由地理科目贡献。得益于多模态能力的飞跃,AI 在地理图题上的理解力显著增强,使得该科目平均分激增了 20.3 分,成为进步的火车头。

null

AI 眼镜作弊?尚不成熟

从去年到今年,AI 眼镜等「视觉 AI 硬件」无疑是科技界最炙手可热的焦点。其背后的核心驱动力,正是大模型的实时视频理解功能的出现。它意味着 AI 正从被动接收指令,进化到主动感知和理解物理世界。研究人员尝试让视频模型「观看」试卷并作答。结果表明,目前的视频大模型仍处于非常早期的阶段,存在严重的幻觉问题和被动的交互模式,距离在考场上「大显神通」还很遥远。

AI 的审美偏好:英雄不问出处

大模型是否也存在审美偏好呢?它会因为更欣赏自己的文风,从而在给其他模型打分时产生偏见吗?研究人员进行了一项有趣的尝试:让参与本次评测的大模型们,对彼此生成的作文进行交叉打分和排序。结果表明,模型并没有表现出对自家作品的特殊偏爱,有时候反而可能给自己打低分。AI 与人类判分员的审美,大方向仍然是一致的。

null

AI 的未来:无限可能,但也需脚踏实地

2025 年的 AI 高考模拟测评,为我们提供了一个观察 AI 智能发展的独特视角。过去一年,AI 在深度思考、多模态能力等方面取得了显著进步,但在处理复杂信息、进行抽象推理等方面仍然存在不足。AI 的发展并非一蹴而就,它在攻克难题的同时,也会在看似简单的问题上犯错。高考,这个完美融合了知识掌握、逻辑推理与应试策略的综合场景,让 AI 展现出了它最迷人而矛盾的一面。

AI 的下一站,终将是更复杂、更广阔的现实世界。考试,只是它漫长征途的起点,而非能力边界的终点。这张快照,最终将成为它成长相册里,一张记录了进化途中的光荣与笨拙的泛黄的旧照片。