AI 斩获国际数学奥赛金牌:Gemini Deep Think 如何重塑数学认知?

1

在人工智能领域,数学能力一直是衡量AI智能水平的重要标准。近日,谷歌DeepMind开发的Gemini Deep Think在国际数学奥林匹克竞赛(IMO)中荣获金牌,再次引发了人们对AI数学能力的广泛关注。与OpenAI不同的是,DeepMind严格遵守IMO的规则,确保了比赛的公平性和结果的权威性。

Google DeepMind at IMO

国际数学奥林匹克竞赛(IMO)是面向全球高中生的顶级数学赛事,参赛者都是来自世界各地的数学天才。今年的比赛中,除了人类选手外,还涌现出一批强大的AI模型,其中最引人注目的就是谷歌的Gemini Deep Think。谷歌表示,他们严格遵守IMO的比赛规则,对Gemini Deep Think进行了测试,并在去年取得的成绩基础上有了显著提高。

Gemini Deep Think在今年的比赛中正确解答了六道题中的五道,成功斩获金牌。与OpenAI不同,谷歌在参赛过程中严格遵守了IMO的各项规定,确保了比赛的公平公正。

Gemini Deep Think的创新之处

去年,DeepMind团队就曾携AlphaProof和AlphaGeometry 2模型参加了IMO竞赛,并获得了银牌。今年,谷歌DeepMind再次参赛,并带来了一款全新的模型——Gemini Deep Think。这款模型在今年早些时候发布,被认为是模拟推理模型的一次重大突破。与传统的线性思维模式不同,Deep Think可以并行运行多个推理过程,并在综合比较结果后给出最终答案。

DeepMind高级科学家兼IMO团队负责人Thang Luong表示,Gemini Deep Think的出现代表着一种范式转变。在2024年的比赛中,专家需要将自然语言问题转换为特定领域的语言,并在最后解读输出结果。而Deep Think则可以直接处理自然语言问题,无需人工干预,并且并非专门为数学而设计。

过去,提高LLM数学能力的方法通常是使用最终答案进行强化学习。Luong解释说,以这种方式训练的模型虽然可以得到正确答案,但推理过程往往不完整。而IMO的评分标准之一就是解题步骤的完整性。为了让Deep Think更好地应对IMO竞赛,谷歌采用了新的强化学习技术,使用了更高质量的“长答案”数学问题解决方案,使模型能够更好地处理解题过程中的每一个步骤。“通过这种训练,你可以获得强大的、长程的推理能力,”Luong说。

IMO 2024 2025

与Gemini应用中提供的简单版本相比,Deep Think需要更多的时间来生成输出结果。但由于它具备了以自然语言形式接收问题的能力,因此可以像人类选手一样遵守比赛规则。Gemini在比赛规定的4.5小时内完成了所有问题的解答。

严谨的证明过程

近年来,DeepMind等AI公司对IMO越来越感兴趣,因为它提出了独特的挑战。IMO的参赛对象是大学预科的数学爱好者,但题目需要批判性思维和对多个数学学科的理解,包括代数、组合学、几何和数论。只有最先进的AI模型才有希望准确地回答这些多层次的问题。

DeepMind团队指出,Deep Think的表现有一些有趣的特点,这得益于其先进的训练方法。例如,在第三题中,许多人类选手应用了研究生级别的狄利克雷定理,使用了超出比赛范围的数学知识。然而,Deep Think意识到可以用更简单的数学方法解决这个问题。“我们的模型实际上做出了一个 brilliant 的观察,并且只使用初等数论来创建一个给定问题的自包含证明,”DeepMind研究员兼布朗大学教授Junehyuk Jung说。

IMO 2025 P3

对于Deep Think唯一做错的题目,DeepMind团队表示,那是本次比赛中最难的一道题。这道题询问覆盖给定空间所需的最小矩形数量。Jung解释说,Deep Think从一个错误的假设开始,认为答案大于或等于10,因此从一开始就迷失了方向。“它不可能解决这个问题,因为这个假设一开始就是错误的,”Jung说。

尽管Deep Think在那道题上失分,但Jung指出,只有五名学生成功解决了这道题。最终,谷歌获得了35分,赢得了一枚金牌。只有大约8%的人类参赛者能达到这个水平。

谷歌强调,Deep Think经历了与学生相同的评估过程。OpenAI也宣布了IMO的成绩,但它没有与IMO合作,也没有遵守既定流程。相反,它让一个由前IMO参赛者组成的小组来评分,并给自己颁发了一枚金牌。

“我们已经与IMO组织确认,我们实际上完美地解决了五个问题,”Luong说。“我认为任何没有经历过这个过程的人,我们都不知道,他们可能失去了一分,只获得了一枚银牌。”

谷歌表示,专门为IMO调整的Deep Think版本将继续存在。目前,它正在向包括数学家在内的一组值得信赖的测试者推广。最终,该模型将提供给Google AI Ultra用户,他们每月支付250美元,以访问谷歌最大、最昂贵的模型。DeepMind计划继续迭代该模型,并将在明年再次参赛,以寻求完美的成绩。

AI 数学能力的未来展望

Gemini Deep Think 在国际数学奥林匹克竞赛中获得金牌,不仅证明了人工智能在数学领域的巨大潜力,也为我们展示了 AI 技术未来发展的方向。通过不断地学习和训练,AI 模型能够掌握更加复杂的数学知识,并解决各种实际问题。未来,我们有理由相信,AI 将在科学研究、工程设计、金融分析等领域发挥更加重要的作用,为人类社会带来更大的进步。

AI 在教育领域的应用

AI 技术的不断发展也为教育领域带来了新的机遇。AI 辅助教学、个性化学习、智能辅导等应用正在逐渐改变传统的教育模式。通过 AI 技术,我们可以为学生提供更加个性化、高效的学习体验,帮助他们更好地掌握知识和技能。

例如,AI 可以根据学生的学习情况,智能推荐适合他们的学习内容和方法。AI 还可以为学生提供实时的学习反馈和答疑解惑,帮助他们及时解决学习中遇到的问题。此外,AI 还可以辅助教师进行教学管理和评估,提高教学效率和质量。

AI 在科研领域的应用

AI 在科研领域也具有广阔的应用前景。AI 可以帮助科学家们处理海量的数据,发现隐藏在数据中的规律和模式。AI 还可以辅助科学家们进行实验设计和模拟,加速科学研究的进程。

例如,在基因组学研究中,AI 可以帮助科学家们分析大量的基因数据,发现与疾病相关的基因突变。在药物研发领域,AI 可以帮助科学家们预测药物的疗效和副作用,加速新药的研发。

AI 的发展面临的挑战

尽管 AI 技术在数学和各个领域都取得了显著进展,但仍然面临着一些挑战。其中一个重要的挑战是 AI 的可解释性问题。目前的 AI 模型,特别是深度学习模型,往往像一个“黑盒子”,我们很难理解其内部的运作机制。这给 AI 的应用带来了一些风险,特别是在一些高风险领域,如医疗、金融等。

另一个挑战是 AI 的伦理问题。随着 AI 技术的不断发展,我们需要认真思考 AI 的伦理问题,例如 AI 的偏见问题、AI 的隐私问题、AI 的安全问题等。我们需要制定合理的伦理规范,确保 AI 技术的发展符合人类的价值观。

结论

谷歌 DeepMind 的 Gemini Deep Think 在国际数学奥林匹克竞赛中获得金牌,是人工智能发展史上的一个重要里程碑。它标志着 AI 在数学领域取得了重大突破,也预示着 AI 技术未来发展的广阔前景。随着 AI 技术的不断进步,我们有理由相信,AI 将在各个领域发挥越来越重要的作用,为人类社会带来更大的福祉。