在人工智能快速发展的今天,AI 不仅在图像识别、自然语言处理等领域取得了显著进展,更开始向更具挑战性的数学领域发起冲击。近日,谷歌 DeepMind 研发的 Gemini Deep Think 在国际数学奥林匹克(IMO)中荣获金牌,再次证明了人工智能在逻辑推理和问题解决方面的巨大潜力。与 OpenAI 不同,DeepMind 严格遵守 IMO 的竞赛规则,确保了成绩的公正性和权威性。
Gemini Deep Think:新一代数学推理模型
Gemini Deep Think 是谷歌 DeepMind 团队在 2024 年的 AlphaProof 和 AlphaGeometry 2 模型基础上,经过一年的改进和优化后推出的全新模型。与以往的 AI 模型不同,Gemini Deep Think 采用了并行推理的方式,可以同时进行多个推理过程,并通过整合和比较结果,最终得出答案。这种方法更接近人类的思考方式,使其在解决复杂问题时更具优势。
DeepMind 高级科学家兼 IMO 团队负责人 Thang Luong 认为,Gemini Deep Think 的出现代表着一种范式转变。在 2024 年的比赛中,专家需要将自然语言描述的问题转换成特定领域的语言,然后解读 AI 的输出结果。而 Gemini Deep Think 可以直接理解自然语言,无需人工干预,实现了端到端的自然语言处理。
强化学习助力数学能力提升
为了提高 Gemini Deep Think 的数学能力,DeepMind 采用了新的强化学习技术。与以往只关注最终答案的训练方式不同,DeepMind 注重培养 AI 的完整推理能力。他们使用高质量的“长答案”解决方案来训练模型,使其能够更好地处理解决问题的每一个步骤。这种训练方式使 Gemini Deep Think 不仅能够得出正确答案,还能展示出清晰的解题思路。
正如我们所预料的那样,与 Gemini 应用中更简单的版本相比,Deep Think 需要更多时间来生成输出。但由于其能够以自然语言形式接受问题,因此该人工智能遵循与人类参与者相同的规则,这成为可能。Gemini 在比赛规定的 4.5 小时时限内获得了问题描述并给出了答案。
严谨的证明过程
近年来,DeepMind 等 AI 公司对 IMO 越来越感兴趣,因为它提出了独特的挑战。虽然这项竞赛面向的是大学预科的数学家,但这些问题需要批判性思维和对包括代数、组合学、几何和数论在内的多个数学学科的理解。只有最先进的 AI 模型才有希望准确地回答这些多层问题。
IMO 题目涵盖了代数、组合数学、几何、数论等多个数学分支,对参赛者的综合能力提出了极高的要求。只有最先进的 AI 模型才有可能准确解答这些问题。
DeepMind 团队指出,Gemini Deep Think 的卓越表现源于其先进的训练方法。例如,在第三题中,许多人类选手使用了超出比赛范围的研究生水平的狄利克雷定理。然而,Deep Think 意识到可以用更简单的数学方法解决这个问题。“我们的模型实际上做出了出色的观察,并且只使用了初等数论来创建给定问题的独立证明,”DeepMind 研究员兼布朗大学教授 Junehyuk Jung 说。
对于 Gemini Deep Think 唯一答错的题目,DeepMind 团队认为它是本次比赛中最难的一道题。这道题要求计算覆盖给定空间所需的最小矩形数量。Jung 解释说,Deep Think 从一个不正确的假设出发,认为答案大于或等于 10,因此从一开始就迷失了方向。“它根本不可能解决它,因为它从一开始就不是真的,”Jung 说。
尽管如此,Deep Think 仍然获得了 35 分,成功摘得金牌。只有约 8% 的人类选手能达到这一水平。
坚持公平竞赛的原则
谷歌强调,Gemini Deep Think 经历了与人类选手相同的评估过程。OpenAI 也宣布了其在 IMO 中的成绩,但它没有与 IMO 合作以遵守既定流程。相反,它请了一个由前 IMO 参与者组成的小组来评估其答案,并给自己颁发了金牌。
“我们已与 IMO 组织确认,我们实际上完美地解决了五个问题,”Luong 说。“我认为任何没有经历过这个过程的人,我们都不知道,他们可能会失去一分并获得银牌。”
谷歌表示,针对 IMO 调整的 Deep Think 版本将继续存在。它目前正在推广到包括数学家在内的一组受信任的测试人员。最终,该模型将提供给 Google AI Ultra 订阅者,他们每月支付 250 美元即可访问 Google 最大、最昂贵的模型。DeepMind 计划继续迭代该模型,并将在明年回归,以寻求完美的分数。
人工智能在数学领域的未来展望
Gemini Deep Think 在 IMO 中获得的成功,不仅展示了人工智能在数学领域的巨大潜力,也为未来的研究方向提供了新的思路。随着 AI 技术的不断发展,我们有理由相信,人工智能将在数学研究、教育、应用等领域发挥越来越重要的作用。
数学研究的加速器
AI 可以帮助数学家们更快地发现新的规律和定理。通过对海量数据的分析和模式识别,AI 可以为数学家们提供新的研究方向和思路,加速数学研究的进程。
数学教育的革新者
AI 可以为学生提供个性化的学习体验。通过分析学生的学习情况和薄弱环节,AI 可以为学生量身定制学习计划和练习题,帮助学生更好地掌握数学知识。
数学应用的拓展者
AI 可以将数学知识应用到更广泛的领域。例如,在金融领域,AI 可以利用数学模型进行风险评估和投资决策;在医疗领域,AI 可以利用数学方法进行疾病诊断和治疗。
结论
Gemini Deep Think 在国际数学奥赛中荣获金牌,是人工智能发展史上的一个重要里程碑。它标志着人工智能已经具备了在复杂数学问题上与人类顶尖选手竞争的能力。随着 AI 技术的不断进步,我们有理由期待人工智能在数学领域取得更大的突破,为人类带来更多的福祉。