AI再战高考：大模型的一场智力摸底考

AI智力大考：模拟高考揭示大模型的新能力与局限

在科技飞速发展的今天，人工智能（AI）已经渗透到我们生活的方方面面。为了更精准地评估AI的能力，并找到一个客观的衡量标准，极客公园再次组织了一场“AI高考”，让国内外主流的大模型参与其中。这场模拟考试不仅是对AI技术的一次全面检验，也是对未来教育和科技发展趋势的一次深刻反思。

AI快讯

AI考生的崛起：从一本到有望冲击顶尖学府

今年的“AI高考”最引人瞩目的发现是，AI的综合能力首次展现出足以考上顶尖学府的潜力。各大模型在文理科成绩上都实现了显著的飞跃，尤其是在数学和理科方面的进步更是惊人。这意味着AI已经具备了初步的知识储备和逻辑推理能力，可以在一定程度上胜任高等教育的学习任务。

参与本次“AI高考”的选手包括：豆包、DeepSeek（R1-0528 版）、ChatGPT（o3）、元宝（Hunyuan t1）、Kimi（k1.5）、文心一言、通义千问等国内外主流大模型。测评方式为直接让模型识别图像作答，DeepSeek-R1 由于不支持图片识别作答，因此只测试了纯文字题目。

AI快讯

数学能力的飞跃：AI的逻辑思维突破

在所有科目中，数学是AI进步最显著的科目。各大模型在数学上的平均分较去年提升了84.25分，甚至超过了语文和英语。这表明AI在处理逻辑性强、有标准化解题路径的题目时，具有独特的优势。模型不再直接产出答案，而是逐步分析、分解问题、检查中间结果，甚至自我修正，带来了模型在数理考试中的表现的大幅提升。

AI快讯

多模态能力的加持：AI的视觉理解能力提升

多模态能力是今年“AI高考”中另一个关键的亮点。与去年相比，模型的视觉理解能力显著提升，这一点在包含大量图像题的学科中尤为突出。物理和地理的平均分提升了约20分，生物提升了15分，化学科目整体表现稍弱，但全员平均分也比去年提高了12.6分。这表明AI在处理图像信息、理解复杂场景方面取得了长足的进步。

AI的软肋：一道基础题暴露的“智商”短板

尽管AI在数学科目上取得了令人瞩目的成绩，但在“AI高考”中，所有数学学霸AI却齐齐败在了一道基础题上。这道题是一道简单的向量加减法题，只需在图上连接 (0,2) 与 (2,0) 两点，即可得到目标向量，模长 2 倍根号 2。然而，对于大模型而言，这张图的视觉信息极其混乱：虚线、实线、坐标轴、数字、文字相互交织，甚至文字与关键线段存在多处重叠。这种视觉上的“脏数据”，成为了AI精准识别的噩梦。

AI快讯

AI作文：擅长举例子，但不擅长思辨性地升华

作为大语言模型，语文和英语一向是AI的传统强项。不过，在大模型的数理逻辑大幅进步后，大模型的语文和英语能力反而显得有点不够看了。AI似乎也触碰到了同样的瓶颈。在备受瞩目的作文题上，AI的表现则延续了去年的趋势：平均分高于人类，但难有真正的佳作。AI作文大多属于稳妥的“二类文”，很少偏题，但因其深刻性、丰富性、创造性不足，难以产生动人心弦的“一类文”，其结尾部分的升华更是套路化明显。

AI快讯

英语：主要被作文分数拖累

与语文相似，AI在传统强项——英语上的表现，也进入了一个平台期。各家AI的英语成绩已然不错，今年的模型能力并未产生飞跃。事实上，所有参评模型的平均分仅比去年提高了3.2分，进步幅度远小于数学。AI 考生并未在此表现出更强的统治力。

AI快讯

理综三科：有进步，但仍然不算十分优秀

如果说AI在数学上的进步是“一飞冲天”，那么在理综三科上的表现，则更像是一次“破冰启航”。相较于去年，理综三科有一定进步——所有模型都提分10-20分，但整体成绩依旧挣扎在及格线附近，清晰地标示出AI与顶尖人类考生之间的能力鸿沟。在综合性与深度并存的理综试卷上，AI尚未具备稳定碾压人类考生的实力。

AI快讯

化学成为了拉低理综总分的“重灾区”。整体得分偏低，仅有豆包勉强及格，选择题和填空题的平均得分率均低于 60%。有机物大题依旧是所有大模型的主要软肋。例如，满分为 12 分的第 25 题（有机化学），所有模型得分极低。

文综：AI的舒适区

在今年的AI高考评测中，一个清晰的趋势得以延续：文科综合依然是AI的高分舒适区。元宝更是将文综最高分推升至 253.5 分，这一成绩，与理科综合最高分（213.25 分）形成了鲜明对比。在无需联网的情况下，头部 AI 在文综上的得分率已超过 80%，达到了人类优等生的水平。

AI快讯

得益于多模态能力的飞跃，AI 在地理图题上的理解力显著增强，使得该科目平均分激增了 20.3 分，成为进步的火车头。

AI快讯

AI眼镜能用来作弊吗？

今年的高考也迎来了一项新变化：考场安检门全面升级，旨在精准防范智能眼镜等新型作弊工具。我们选择国外的 ChatGPT 与国内的元宝，进行了一次非常规的测试。为简化流程，我们仅选用难度较低的英语阅读题，尝试让视频模型“观看”试卷并作答。结果表明，今天的视频大模型，像极了去年的图像大模型，仍处于非常早期的阶段。想在目前阶段，单纯依靠它在考场作弊，还需要担负必须不断跟它说话、答案完全不准等巨大风险，基本属于科幻情节。

AI快讯

AI的未来：挑战与机遇并存

“AI高考”的结果表明，AI在知识掌握、逻辑推理和多模态理解方面取得了显著的进步，但在复杂场景理解、思辨性写作和应试策略等方面仍存在局限。这意味着AI在教育、科研和产业应用等领域具有广阔的应用前景，但也需要不断提升自身的能力，才能更好地服务于人类社会。

总的来说，这次AI模拟高考是一次有益的尝试，它让我们更清晰地认识到AI的能力与局限。随着技术的不断发展，我们有理由相信，AI将在未来发挥更大的作用，为人类带来更多的福祉。

今年的“AI高考”为我们提供了一个观察AI发展的新视角。虽然AI在某些方面已经超越了人类，但在其他方面仍然存在明显的不足。我们应该正视AI的优势与劣势，扬长避短，才能更好地利用AI为人类服务。

在未来，我们期待看到AI在各个领域取得更大的突破，为人类创造更美好的未来。