深度探究:Gemini Deep Think如何以AI之智问鼎国际数学奥林匹克金牌?

1

智能算法登峰造极:Gemini Deep Think在国际数学奥赛中摘取金牌

国际数学奥林匹克竞赛(IMO)历来是全球青年数学英才展现计算思维与解题能力的终极舞台。然而,在2025年的赛事中,除了这些顶尖学子,一股新兴的强大力量也加入了竞争的行列——那便是由Google DeepMind研发的Gemini Deep Think人工智能模型。与过往某些AI参与者不同的是,Google DeepMind此次严格遵循了国际数学奥林匹克组委会制定的所有规则,其模型凭借卓越表现,成功取得了足以媲美人类选手的金牌成绩,这无疑标志着人工智能在复杂数学推理领域取得了里程碑式的进步。

Gemini Deep Think在本次IMO竞赛中,准确解答了六道题目中的五道,这一成绩使其顺利达到金牌标准。值得注意的是,这种严谨的参赛方式与此前OpenAI在相关竞赛中采取的自我评级策略形成了鲜明对比,凸显了Google DeepMind对赛事规则的尊重和对其模型能力的高度自信。

AI数学能力的新范式:Gemini Deep Think的崛起

Google DeepMind团队并非首次涉足IMO。在2024年的赛事中,其AI系统,由AlphaProof和AlphaGeometry 2模型集成,已展现出不俗实力,成功解答了六题中的四题,获得了相当于银牌的成绩——要知道,在IMO中,仅有半数的人类参赛者能够获得任何奖牌。这一初次尝试便已令人印象深刻,预示着未来AI在数学领域的巨大潜力。

到了2025年,Google DeepMind作为与IMO组织方合作的少数公司之一,将其全新模型——Gemini Deep Think——带入了官方认证的评级体系。Gemini Deep Think于今年早些时候发布,被定位为一个更具分析性、旨在模拟高级推理过程的模型。它的核心创新在于其独特的“并行推理”机制。不同于传统的线性思考路径,Deep Think能够同时运行多个推理过程,对这些过程产生的结果进行集成、比较和验证,最终得出更为精准和可靠的结论。这种多维度、协同式的思考方式,是其超越前代模型的关键所在。

DeepMind资深科学家兼IMO团队负责人Thang Luong指出,这标志着一次“范式转变”。在2024年的竞赛中,人类专家需要将自然语言描述的问题手动转换成“领域特定语言”,并在模型输出后对其进行人工解读。而Gemini Deep Think则实现了端到端的自然语言处理,直接理解并回应竞赛问题,且其设计并非专为数学而生,这使其通用性与适应性更强,展现了通用人工智能在特定领域突破的潜力。

强化学习的革新与严谨的证明过程

过去,提升大型语言模型(LLMs)的数学能力常通过基于最终答案的强化学习实现。Luong解释说,尽管这种方法可能引导模型得出正确答案,但其推理过程往往“不完整”。然而,IMO竞赛的评分标准不仅看重结果,更强调展示完整的解题步骤和严谨的证明过程。为了使Deep Think能够满足这一高要求,Google DeepMind采用了新的强化学习技术,其训练数据不仅包含正确答案,更侧重于高质量的“长答案”数学解法。这意味着模型能够学习如何系统地处理问题,理解每一步推导的逻辑与依据,从而构建出完整且逻辑清晰的证明链。

“通过这种训练,我们能够获得稳健且长篇幅的推理能力,”Luong强调。尽管Gemini Deep Think生成完整输出所需的时间,相比普通版本Gemini应用可能稍长,但它完全符合人类参赛者的4.5小时竞赛时限。其能够直接处理自然语言问题并给出答案的能力,是其得以遵循IMO严格规则的关键。

DeepMind IMO团队

应对IMO挑战:多学科交叉的复杂性

近年来,Google DeepMind等AI公司对IMO表现出浓厚兴趣,因为这项赛事提供了一个独特的挑战平台。IMO的题目虽然面向大学预科生,但其设计却要求参赛者具备高水平的批判性思维,并融会贯通代数、组合学、几何学和数论等多个数学分支的知识。只有最先进、最复杂的AI模型,才有可能准确解答这些层层嵌套、需要深度理解的问题。

DeepMind团队在分析Gemini Deep Think的表现时,特别指出了一些引人注目的亮点,这些都源于其高级的训练机制。例如,在本次竞赛的第三题中,许多人类选手倾向于运用大学甚至研究生阶段的概念,如狄利克雷定理,其解法超出了竞赛预设的知识范围。然而,Gemini Deep Think却展现出令人惊叹的洞察力,它识别出可以通过更基础的数学原理来解决该问题。

IMO 2025 第三题

“我们的模型实际上做出了一个绝妙的观察,仅运用初等数论知识就为该问题构建了一个自洽的证明,”DeepMind研究员兼布朗大学教授Junehyuk Jung表示。这一案例充分展示了AI在复杂问题面前,不拘泥于已知范式,甚至能提出更优雅、更本质解法的潜力。

至于Deep Think唯一未能正确解答的那道题目,团队解释那确实是本次竞赛中最具挑战性的一道。该问题旨在探究覆盖给定空间所需的最少矩形数量。Jung指出,Deep Think从一个错误的初始假设出发,错误地认为答案应大于或等于10,这导致其从一开始就偏离了正确的方向。“如果初始前提就不正确,模型就无法解决它,”Jung坦言。尽管如此,那道难题最终也只有五名人类学生成功解答。DeepMind的Gemini Deep Think以35分的总成绩斩获金牌,这一成就意味着它超越了大约92%的人类参赛者,跻身顶尖8%的精英行列,足以证明其在全球数学领域的领先地位。

IMO 2024-2025成绩对比

展望智能计算的未来

Google DeepMind强调,Deep Think模型通过了与人类学生完全相同的严格评估流程。而之前OpenAI也曾宣布其在IMO中的“成绩”,但他们并未与IMO组织方合作,而是由前IMO参赛者组成的专家小组自行评判并授予了自己“金牌”。对此,Luong表示:“我们与IMO组织确认,我们确实完美解决了五道题。我认为任何没有经过这个过程的模型,我们都无法确定,他们可能差一分就只能拿到银牌。”

目前,经过为IMO赛事特别调优的Deep Think版本将继续保留,并正逐步向一群受信任的测试人员(包括专业数学家)开放。未来,这款强大的模型也将面向Google AI Ultra订阅用户提供,他们每月支付250美元即可使用Google最先进、最昂贵的AI模型。DeepMind计划持续迭代优化这一模型,并期望在明年的赛事中冲击满分,实现人工智能在国际数学奥林匹克竞赛上的全面胜利。此次Deep Think的卓越表现,不仅提升了AI在数学领域的声望,也为科学研究、教育以及其他需要复杂推理的领域,描绘了智能辅助工具的广阔未来。