AI智力大考:模拟高考揭示大模型的新能力与局限
在科技飞速发展的今天,人工智能(AI)已经渗透到我们生活的方方面面。为了更精准地评估AI的能力,并找到一个客观的衡量标准,极客公园再次组织了一场“AI高考”,让国内外主流的大模型参与其中。这场模拟考试不仅是对AI技术的一次全面检验,也是对未来教育和科技发展趋势的一次深刻反思。
AI考生的崛起:从一本到有望冲击顶尖学府
今年的“AI高考”最引人瞩目的发现是,AI的综合能力首次展现出足以考上顶尖学府的潜力。各大模型在文理科成绩上都实现了显著的飞跃,尤其是在数学和理科方面的进步更是惊人。这意味着AI已经具备了初步的知识储备和逻辑推理能力,可以在一定程度上胜任高等教育的学习任务。
参与本次“AI高考”的选手包括:豆包、DeepSeek(R1-0528 版)、ChatGPT(o3)、元宝(Hunyuan t1)、Kimi(k1.5)、文心一言、通义千问等国内外主流大模型。测评方式为直接让模型识别图像作答,DeepSeek-R1 由于不支持图片识别作答,因此只测试了纯文字题目。
数学能力的飞跃:AI的逻辑思维突破
在所有科目中,数学是AI进步最显著的科目。各大模型在数学上的平均分较去年提升了84.25分,甚至超过了语文和英语。这表明AI在处理逻辑性强、有标准化解题路径的题目时,具有独特的优势。模型不再直接产出答案,而是逐步分析、分解问题、检查中间结果,甚至自我修正,带来了模型在数理考试中的表现的大幅提升。
多模态能力的加持:AI的视觉理解能力提升
多模态能力是今年“AI高考”中另一个关键的亮点。与去年相比,模型的视觉理解能力显著提升,这一点在包含大量图像题的学科中尤为突出。物理和地理的平均分提升了约20分,生物提升了15分,化学科目整体表现稍弱,但全员平均分也比去年提高了12.6分。这表明AI在处理图像信息、理解复杂场景方面取得了长足的进步。
AI的软肋:一道基础题暴露的“智商”短板
尽管AI在数学科目上取得了令人瞩目的成绩,但在“AI高考”中,所有数学学霸AI却齐齐败在了一道基础题上。这道题是一道简单的向量加减法题,只需在图上连接 (0,2) 与 (2,0) 两点,即可得到目标向量,模长 2 倍根号 2。然而,对于大模型而言,这张图的视觉信息极其混乱:虚线、实线、坐标轴、数字、文字相互交织,甚至文字与关键线段存在多处重叠。这种视觉上的“脏数据”,成为了AI精准识别的噩梦。
AI作文:擅长举例子,但不擅长思辨性地升华
作为大语言模型,语文和英语一向是AI的传统强项。不过,在大模型的数理逻辑大幅进步后,大模型的语文和英语能力反而显得有点不够看了。AI似乎也触碰到了同样的瓶颈。在备受瞩目的作文题上,AI的表现则延续了去年的趋势:平均分高于人类,但难有真正的佳作。AI作文大多属于稳妥的“二类文”,很少偏题,但因其深刻性、丰富性、创造性不足,难以产生动人心弦的“一类文”,其结尾部分的升华更是套路化明显。
英语:主要被作文分数拖累
与语文相似,AI在传统强项——英语上的表现,也进入了一个平台期。各家AI的英语成绩已然不错,今年的模型能力并未产生飞跃。事实上,所有参评模型的平均分仅比去年提高了3.2分,进步幅度远小于数学。AI 考生并未在此表现出更强的统治力。
理综三科:有进步,但仍然不算十分优秀
如果说AI在数学上的进步是“一飞冲天”,那么在理综三科上的表现,则更像是一次“破冰启航”。相较于去年,理综三科有一定进步——所有模型都提分10-20分,但整体成绩依旧挣扎在及格线附近,清晰地标示出AI与顶尖人类考生之间的能力鸿沟。在综合性与深度并存的理综试卷上,AI尚未具备稳定碾压人类考生的实力。
化学成为了拉低理综总分的“重灾区”。 整体得分偏低,仅有豆包勉强及格 ,选择题和填空题的平均得分率均低于 60%。有机物大题依旧是所有大模型的主要软肋 。例如,满分为 12 分的第 25 题(有机化学),所有模型得分极低。
文综:AI的舒适区
在今年的AI高考评测中,一个清晰的趋势得以延续:文科综合依然是AI的高分舒适区。元宝更是将文综最高分推升至 253.5 分 ,这一成绩,与理科综合最高分(213.25 分)形成了鲜明对比。在无需联网的情况下,头部 AI 在文综上的得分率已超过 80%,达到了人类优等生的水平。
得益于多模态能力的飞跃,AI 在地理图题上的理解力显著增强, 使得该科目平均分激增了 20.3 分 ,成为进步的火车头。
AI眼镜能用来作弊吗?
今年的高考也迎来了一项新变化:考场安检门全面升级,旨在精准防范智能眼镜等新型作弊工具。我们选择国外的 ChatGPT 与国内的元宝,进行了一次非常规的测试。为简化流程,我们仅选用难度较低的英语阅读题,尝试让视频模型“观看”试卷并作答。结果表明,今天的视频大模型,像极了去年的图像大模型,仍处于非常早期的阶段。想在目前阶段,单纯依靠它在考场作弊,还需要担负必须不断跟它说话、答案完全不准等巨大风险,基本属于科幻情节。
AI的未来:挑战与机遇并存
“AI高考”的结果表明,AI在知识掌握、逻辑推理和多模态理解方面取得了显著的进步,但在复杂场景理解、思辨性写作和应试策略等方面仍存在局限。这意味着AI在教育、科研和产业应用等领域具有广阔的应用前景,但也需要不断提升自身的能力,才能更好地服务于人类社会。
总的来说,这次AI模拟高考是一次有益的尝试,它让我们更清晰地认识到AI的能力与局限。随着技术的不断发展,我们有理由相信,AI将在未来发挥更大的作用,为人类带来更多的福祉。
今年的“AI高考”为我们提供了一个观察AI发展的新视角。虽然AI在某些方面已经超越了人类,但在其他方面仍然存在明显的不足。我们应该正视AI的优势与劣势,扬长避短,才能更好地利用AI为人类服务。
在未来,我们期待看到AI在各个领域取得更大的突破,为人类创造更美好的未来。