AI再战高考：一本直升985？AI智商大考，看大模型如何炼金

大模型高考再战：从一本跃升985，AI智商大考炼金

人工智能（AI）技术狂飙突进，大模型的能力日新月异，但如何精准衡量AI的真实水平？或许没有比“高考”更能触动国人神经的方式了。本文复盘了极客公园最新AI高考模拟测评，通过对比国内外主流大模型在高考中的表现，揭示AI在知识掌握、逻辑推理、多模态理解等方面的最新进展与局限，并探讨AI在教育领域的潜在价值与挑战。

null

AI考生的高考成绩单

本次AI高考模拟测评，选取了2025年山东高考卷，汇集了豆包、DeepSeek、ChatGPT、元宝、Kimi、文心一言、通义千问等明星AI模型。测评直接采用图像识别作答方式，模拟真实考试场景，旨在考察AI的综合能力和应试水平。

总体成绩：

AI模型的综合能力显著提升，文理科成绩均实现飞跃。其中，表现最佳的“状元豆包”有望跻身山东省前500-900名，具备了考入人大、复旦、上海交大、浙大等顶尖学府人文社科专业的实力。

科目表现：

文理不再偏科： 各大模型文科总分平均增长115.6分，理科总分平均增长147.4分。尽管理科增速更快，但文科平均总分仍高于理科，AI不再严重偏科。
数学突飞猛进： 数学是进步最显著的科目，平均分较去年提升84.25分，甚至超越了语文和英语。这表明AI更擅长处理逻辑性强、有标准化解题路径的题目。
多模态能力成关键： 模型的视觉理解能力显著提升，在包含大量图像题的学科中尤为突出。物理、地理平均分提升约20分，生物提升15分，化学平均分也提高了12.6分。

null

从一本到顶尖大学：AI如何实现跃升？

大模型深度思考能力的提升，是AI能力进步的关键因素。模型不再直接输出答案，而是逐步分析、分解问题、检查中间结果，甚至自我修正，这使得AI在数理考试中的表现大幅提升。在总分150分的数学考试中，即便表现最差的AI模型也能拿下128.75分的高分，这在人类考生中也属于优秀水平。

多模态能力是决定AI能力表现差别的另一个关键因素。主流模型已普遍具备多模态能力，尤其是在图像问题上，豆包、ChatGPT等模型展现出明显优势。然而，即便图像问题得分最高的模型，其得分率也仅为70%，相比文本问题90%的最高得分率仍有较大差距，表明AI在多模态理解和推理上仍有很大的提升空间。

数学逼近满分的AI，为何败于基础题？

AI在数学科目上的进步令人瞩目，正确率今非昔比。然而，在本次AI高考测评中，数学尖子生们却在同一道选择题上栽了跟头。这道题的数学原理非常简单，是一道基础的向量加减法题。问题在于，这张图的视觉信息极其混乱：虚线、实线、坐标轴、数字、文字相互交织，甚至文字与关键线段存在多处重叠。这种视觉上的“脏数据”成为了AI精准识别的噩梦。

null

AI写作文：擅长举例，但不擅长思辨升华

作为大语言模型，语文和英语一向是AI的传统强项。但有趣的是，在大模型的数理逻辑大幅进步后，语文和英语能力反而显得有点不够看了。AI作文平均分高于人类，但难有真正的佳作。AI作文大多属于稳妥的“二类文”，很少偏题，但因其深刻性、丰富性、创造性不足，难以产生动人心弦的“一类文”，其结尾部分的升华更是套路化明显。

null

以元宝生成的AI作文为例，其在人类阅卷老师处获得了53.5分的高分，是AI作品中的佼佼者。然而，细究其文，AI“模板化”的问题依旧暴露无遗。比如，中间几段先是提出观点，随即并列引用三到四位历史人物；接着，引出论点，再列举三到四位经历苦难的人物；最后，论及当代精神，再次列举三到四个当代人物。AI作文的语言华丽，引经据典丰富，但逻辑上像极了家长式的说教。

英语：主要被作文分数拖累

与语文相似，AI在传统强项——英语上的表现也进入了一个平台期。各家AI的英语成绩已然不错，今年的模型能力并未产生飞跃。事实上，所有参评模型的平均分仅比去年提高了3.2分，进步幅度远小于数学。

null

作文题可能是一大拖累。这背后有两个可能的原因：一是苛刻的字数限制。二是缺乏应试智慧。在有限的篇幅内，人类考生会有意识地使用更高级句式、时态来“炫技”以博取高分。而AI的目标通常是清晰、完整地传达信息，它不会刻意为了得分而优化句式复杂度，因此在评分细则上可能吃了暗亏。

理综三科：有进步，但仍不算优秀

如果说AI在数学上的进步是“一飞冲天”，那么在理综三科上的表现，则更像是一次“破冰启航”。相较于去年，理综三科有一定进步，所有模型都提分10-20分，但整体成绩依旧挣扎在及格线附近，清晰地标示出AI与顶尖人类考生之间的能力鸿沟。

相比于数学，理综三科既考验逻辑能力，又考验多模态能力。而今年，读图能力的解锁，加上模型推理能力的增强，共同带动了理综能力的进步。不过正如绊住AI的数学题所展现的一样，能“看见”不代表AI能“看懂”。

null

文综是舒适区

在今年的AI高考评测中，文科综合依然是AI的高分舒适区。元宝更是将文综最高分推升至253.5分，这一成绩与理科综合最高分（213.25分）形成了鲜明对比。相比去年，文强理弱的偏科问题虽有缓解，但基本格局并未改变，这与人类考生相反。在人类考生中，理综最高分往往比文综最高分高出不少。

null

今年的分数增长主要由地理科目贡献。得益于多模态能力的飞跃，AI在地理图题上的理解力显著增强，使得该科目平均分激增了20.3分，成为进步的火车头。与之相对，政治和历史科目的分数则基本处于高位平台期，并未呈现显著进步。

AI眼镜能用来作弊吗？

从去年到今年，AI眼镜等“视觉AI硬件”无疑是科技界最炙手可热的焦点。今年的高考也迎来了一项新变化：考场安检门全面升级，旨在精准防范智能眼镜等新型作弊工具。那么，这些新兴的、能与视频进行实时交互的多模态大模型，真的能用来在考场上“大显神通”吗？

null

测试结果表明，想在目前阶段，单纯依靠AI眼镜在考场作弊，还需要担负必须不断跟它说话、答案完全不准等巨大风险，基本属于科幻情节。今天的视频大模型仍处于非常早期的阶段。

仿生人会爱上自己生成的电子羊吗？

在AI的世界里，大模型是否也存在审美偏好呢？它会因为更欣赏自己的文风，从而在给其他模型打分时产生偏见吗？测试结果表明，模型并没有表现出对自家作品的特殊偏爱，AI与人类判分员的审美大方向仍然是一致的。可能真的只是和我们普通人类一样吧：我知道什么是好的，就是写不出来。

null

AI高考：一次AI能力进化的快照

今年，或许是高考测试对大模型仍具挑战意义的最后一年。当AI已经能展现出冲击顶尖学府的实力时，这个人类社会的智能筛选器，可能未来不再能成为对AI有区分度的测试了。

高考测试，不仅仅是一场对人类智慧与AI智慧的对比，也是我们观察AI智能发展的一个刻度表。过去一年，我们对AI能力的直观感受和多次验证，正在不断地提醒我们：AI正加速逼近甚至超越普通人的能力边界。

但它的发展并非线性——它能攻克人类眼中的难题，却也会在看似简单的题目上意外失足。正因如此，高考让AI展现出了它最迷人而矛盾的一面：它时而展现出顶尖人类的才华，轻而易举地攻克难题；时而又暴露出孩童般的认知盲区，在基础问题上犯下令人啼笑皆非的错误。

感谢高考。它用一种我们最熟悉的方式，为AI的通用智能水平提供了一张刻度清晰、极具参考价值的“快照”，而这，很可能是最后一张了。

AI的下一站，终将是更复杂、更广阔的现实世界。考试，只是它漫长征途的起点，而非能力边界的终点。

null