AI 在国际数学奥林匹克竞赛中崭露头角
在澳大利亚举办的国际数学奥林匹克竞赛(IMO)上,年轻的数学天才们与日益强大的 AI 模型展开了较量,其中谷歌的 Gemini Deep Think 表现尤为出色。谷歌表示,他们遵循与人类参赛者相同的规则对模型进行了测试,并在去年的基础上取得了更大的进步。
Gemini Deep Think 在本次竞赛中成功解答了六道题中的五道,达到了金牌水平。与 OpenAI 不同,谷歌严格遵守了 IMO 设定的规则。
Gemini Deep Think 的突破
去年,谷歌 DeepMind 团队使用 AlphaProof 和 AlphaGeometry 2 模型组成的 AI 参加了 IMO 竞赛。该 AI 正确解答了六道题中的四道,获得了银牌——只有一半的人类参赛者能获得奖牌。
2025 年,谷歌 DeepMind 与 IMO 合作,对其模型进行官方评级和认证。谷歌推出了新的 Gemini Deep Think 模型,该模型被认为是模拟推理模型的更具分析性的版本。Deep Think 并非沿着一条线性的“思考”路线进行,而是并行运行多个推理过程,整合并比较结果,然后给出最终答案。
DeepMind 高级科学家兼 IMO 团队负责人 Thang Luong 表示,这与去年的工作相比是一个范式转变。2024 年,专家需要将自然语言问题翻译成“领域特定语言”,并在过程结束时解释输出。而 Deep Think 采用自然语言端到端的方式,并非专门为数学而设计。
过去,提高 LLM 的数学能力通常需要通过最终答案进行强化学习。Luong 解释说,以这种方式训练的模型可以得到正确的答案,但它们的“推理不完整”,而 IMO 评分的一部分是基于展示你的解题过程。为了让 Deep Think 为 IMO 做好准备,谷歌使用了新的强化学习技术,并结合了更高质量的“长答案”数学问题解决方案,使模型在处理每一步的过程中都有更好的基础。“通过这种训练,你可以获得强大而持久的推理能力,”Luong 说。
与 Gemini 应用程序中提供的更简单版本相比,Deep Think 需要更多时间来生成输出。但由于它能够以自然语言形式摄取问题,因此 AI 遵循与人类参赛者相同的规则。Gemini 在 4.5 小时的比赛时限内获得了问题描述并给出了答案。
严谨的证明
近年来,DeepMind 等 AI 公司对 IMO 产生了浓厚的兴趣,因为它提出了独特的挑战。虽然比赛是面向大学预科数学家的,但问题需要批判性思维和对包括代数、组合学、几何和数论在内的多个数学学科的理解。只有最先进的 AI 模型才有希望准确地回答这些多层次的问题。
DeepMind 团队指出,Deep Think 的表现有一些有趣的方面,这源于其先进的训练。例如,在第三个问题中,许多人类竞争者应用了一个名为狄利克雷定理的研究生水平的概念,使用了超出比赛范围的数学。然而,Deep Think 意识到可以用更简单的数学方法解决这个问题。DeepMind 研究员兼布朗大学教授 Junehyuk Jung 说:“我们的模型实际上做出了一个精彩的观察,并且只使用了基本的数论来创建一个独立的给定问题证明。”
对于 Deep Think 答错的那道题,该团队表示,这在客观上是比赛中最难的一道题。问题询问覆盖给定空间所需的最小矩形数量。Jung 解释说,Deep Think 从一个不正确的假设开始,认为答案将大于或等于 10,因此从一开始就迷失了方向。“它不可能解决这个问题,因为它一开始就不是真的,”Jung 说。
尽管 Deep Think 在这个问题上失分了,但 Jung 指出,只有五名学生设法解决了这个问题。尽管如此,谷歌还是获得了 35 分,并获得了金牌。只有大约 8% 的人类参赛者能达到这个水平。
谷歌强调,Deep Think 经历了与学生相同的评估。OpenAI 也宣布了 IMO 的结果,但它没有与该组织合作以遵守既定流程。相反,它让一个由前 IMO 参与者组成的小组对其答案进行评分,并给自己颁发了一枚金牌。
Luong 说:“我们已与 IMO 组织确认,我们完美地解决了五个问题。我认为任何没有经历过这个过程的人,我们都不知道,他们可能会失去一分并获得银牌。”
谷歌表示,为 IMO 调整的 Deep Think 版本将继续存在。目前,它正在推广到包括数学家在内的一组值得信赖的测试人员。最终,该模型将提供给 Google AI Ultra 订阅者,他们每月支付 250 美元即可访问谷歌最大和最昂贵的模型。DeepMind 计划继续迭代该模型,并将在明年再次参赛,以寻求完美的分数。
AI 在数学领域的潜力
谷歌 DeepMind 在国际数学奥林匹克竞赛中取得的优异成绩,不仅展示了 AI 在解决复杂数学问题方面的强大能力,也预示着 AI 在更广泛的科学和工程领域的巨大潜力。通过模拟人类的推理过程,AI 可以帮助我们发现新的数学定理,优化算法,甚至解决长期存在的科学难题。随着 AI 技术的不断发展,我们有理由相信,它将在未来的数学研究和教育中发挥越来越重要的作用。
AI 与人类的协同
虽然 AI 在数学竞赛中表现出色,但这并不意味着 AI 将完全取代人类数学家。相反,AI 应该被视为一种强大的工具,可以帮助人类更好地理解和解决数学问题。AI 可以快速地进行大量的计算和推理,从而为人类提供新的思路和视角。而人类则可以利用自己的创造力和直觉,对 AI 的结果进行分析和判断,从而做出更明智的决策。
在未来的数学研究中,AI 和人类将形成一种协同关系。AI 将帮助人类更快地发现新的知识,而人类将指导 AI 的发展方向。这种协同关系将推动数学研究不断向前发展,为人类带来更多的福祉。
AI 对数学教育的影响
AI 的发展也将对数学教育产生深远的影响。传统的数学教育往往侧重于知识的记忆和技能的训练,而忽略了学生的创造力和批判性思维能力。AI 可以帮助我们改变这种状况。
通过 AI 驱动的个性化学习平台,学生可以根据自己的兴趣和能力,选择适合自己的学习内容和学习方式。AI 还可以为学生提供实时的反馈和指导,帮助他们更好地理解数学概念和掌握解题技巧。此外,AI 还可以帮助教师更好地了解学生的学习情况,从而制定更有效的教学计划。
挑战与展望
尽管 AI 在数学领域取得了显著的进展,但仍然面临着许多挑战。例如,AI 的推理能力仍然有限,无法像人类一样进行抽象思维和创造性推理。此外,AI 的训练需要大量的数据和计算资源,这对于一些小型研究机构和个人来说是一个巨大的障碍。
然而,随着 AI 技术的不断发展,我们有理由相信,这些挑战将逐渐得到解决。未来,我们将看到更加智能、更加高效、更加易用的 AI 数学工具,这些工具将帮助我们更好地理解和应用数学知识,为人类创造更美好的未来。
伦理考量
随着 AI 在数学领域的应用越来越广泛,我们也需要认真考虑一些伦理问题。例如,如何保证 AI 的公平性和公正性?如何防止 AI 被用于不正当的目的?如何保护学生的隐私?
这些问题需要我们认真思考和解决。我们需要制定相关的法律法规和伦理规范,确保 AI 的发展符合人类的利益和价值观。
结论
谷歌 DeepMind 在国际数学奥林匹克竞赛中取得的成功,标志着 AI 在数学领域取得了重要的突破。AI 不仅可以帮助我们解决复杂的数学问题,还可以改变我们的数学教育方式,推动数学研究不断向前发展。然而,我们也需要认真考虑 AI 带来的伦理问题,确保 AI 的发展符合人类的利益和价值观。在未来的数学世界中,AI 将与人类携手并进,共同探索数学的奥秘。