AlphaProof：AI数学证明的突破与局限

在数学领域，人类智慧一直占据着不可替代的地位。尽管计算机在数值计算方面早已超越人类，但在需要深度逻辑推理的数学证明领域，人工智能长期难以与人类数学家相抗衡。然而，这一局面正在被改变。Google DeepMind团队最新研发的AlphaProof系统在2024年国际数学奥林匹克竞赛(IMO)中取得了令人瞩目的成绩——以28分获得银牌，仅差1分即可摘金，这一成就标志着AI在数学推理领域的重大突破。

真正的理解：超越计算

计算机在数学竞赛中表现不佳的根本原因在于，虽然它们在计算能力上远超人类，但在高级数学所需的逻辑推理方面却存在明显短板。简单来说，计算机擅长快速执行计算，但往往不理解为何要执行这些计算。以加法为例，人类可以进行基于加法定义的半形式化证明，或者采用皮亚诺算术(Peano arithmetic)等完全形式化的方法，通过公理定义自然数及其运算性质。

数学家构建证明的方式、证明所需的步骤数量以及这些步骤的设计巧妙程度，都体现了人类的智慧、独创性和数学美感。正如DeepMind研究员、AlphaProof研究的主要作者Thomas Hubert所言："你知道，伯特兰·罗素(Bertrand Russell)出版了一本500页的《数学原理》(Principia Mathematica)来证明1+1=2。"

DeepMind团队的目标是开发一种能在这一层面理解数学的AI。这项工作首先面临的是AI领域的常见挑战：训练数据的缺乏。

数学问题翻译器

像ChatGPT这样由大型语言模型驱动的AI系统学习了海量文本数据，其中包括数学手册和著名数学家的著作，因此在证明数学命题方面取得了一定成功。然而，这些模型的运作方式存在局限性：它们依赖大型神经网络来预测响应用户提示时生成的序列中的下一个单词或标记，其本质是统计推理，这意味着它们返回的答案只是"听起来"正确。

DeepMind需要的不是AI"听起来"正确——这在高级数学领域远远不够。他们需要AI"真正"正确，保证绝对确定性。这要求一个全新的、更加形式化的训练环境。为此，团队使用了一款名为Lean的软件包。

Lean是一款帮助数学家编写精确定义和证明的计算机程序，它依赖一种精确的形式化编程语言(也叫Lean)，数学命题可以翻译成这种语言。一旦翻译或形式化的语句被上传到程序中，它就可以检查其正确性，并返回"这是正确的"、"缺少某些内容"或"你使用了未经证明的事实"等反馈。

问题是，大多数可在网上找到的数学命题和证明都是用自然语言编写的，如"设X为自然数的集合..."——用Lean编写的语句数量相当有限。Hubert表示："使用形式化语言的主要困难在于数据量非常少。"为解决这个问题，研究人员训练了一个Gemini大型语言模型，将数学命题从自然语言翻译成Lean。这个模型像自动形式化工具一样，产生了约8000万条形式化的数学命题。

虽然这一翻译并不完美，但团队设法将其转化为优势。Hubert声称："有很多方法可以利用近似翻译。"

学习思考：从AlphaZero到AlphaProof

DeepMind为AlphaProof设计的灵感来源于他们用于国际象棋、围棋和将棋的AlphaZero AI系统架构。在Lean和一般数学中构建证明被设想为需要掌握的另一种"游戏"。Hubert表示："我们试图通过试错来学习这个游戏。"形式化不完善的问题为犯错提供了绝佳机会。在学习阶段，AlphaProof只是证明或反驳其数据库中的问题。如果某些问题翻译得不好，识别出其中的不正确之处就是一种有用的锻炼。

与AlphaZero类似，AlphaProof在大多数情况下使用两个主要组件。第一个是拥有数十亿参数的大型神经网络，它通过试错学习在Lean环境中工作。每当证明或反驳一个命题时，它都会获得奖励；每进行一次推理步骤，它都会受到惩罚，这是一种鼓励简短、优雅证明的方式。

它还接受了使用第二个组件——树搜索算法的训练。该算法探索在每个步骤可以采取的所有可能行动，以推动证明前进。由于数学中的可能行动数量近乎无限，神经网络的工作是查看搜索树中的可用分支，并将计算预算仅分配给最有希望的那些分支。

经过几周的训练，该系统在基于高中竞赛问题的数学竞赛基准测试中表现良好，但仍然难以应对最困难的问题。为解决这一问题，团队添加了AlphaZero中未曾有过、也未曾出现在任何其他地方的第三个组件。

人性的火花：时间强化学习

第三个组件称为时间强化学习(Test-Time Reinforcement Learning, TTRL)，大致模拟了数学家处理最困难问题的方式。学习部分依赖于神经网络与搜索树算法的相同组合。区别在于它学习的内容。与依赖广泛自动形式化问题数据库不同，在TTRL模式下工作的AlphaProof首先基于它要处理的问题生成一个全新的训练数据集。

这一过程涉及创建原始命题的无数变体，有些稍微简化一些，有些更一般化，有些则与它只有松散联系。然后系统尝试证明或反驳这些命题。这大致相当于人类面对特别困难的谜题时所做的，相当于AI在说"我不明白，所以让我们先尝试一个更简单的版本来练习一下"。这使AlphaProof能够即时学习，并且效果显著。

在2024年国际数学奥林匹克竞赛中，共有42分，通过解决六个不同的问题获得，每个问题值7分。要获得金牌，参赛者必须获得29分或更高，共有58人达到这一标准。银牌授予获得22至28分的参赛者(有123名银牌获得者)。问题难度各异，第六个问题作为"最终BOSS"是最难的，只有六名参赛者解决了它。AlphaProof是第七个。

巧妙的优化：成就背后的代价

然而，AlphaProof的银牌是有代价的——从字面上看也是如此。

AlphaProof表现的第一个问题是它并非独立工作。首先，人类必须在软件开始工作之前使问题与Lean兼容。在六个奥林匹克问题中，第四个问题是关于几何的，而AI并未针对此进行优化。为此，AlphaProof不得不调用一个名为AlphaGeometry 2的几何专业AI朋友，该AI在几分钟内轻松完成了任务。单独来看，AlphaProof得分为21分，而非28分，因此从技术上讲它应该获得铜牌，而非银牌。除非情况并非如此。

奥林匹克数学竞赛的人类参与者必须在两个四小时半的会话中解决六个问题。相比之下，AlphaProof使用多个张量处理单元全速运转与这些问题搏斗了数天。最消耗时间和能源的组件是TTRL，它针对成功解决的三个问题中的每一个都花费了三天时间。如果AlphaProof受到与人类参与者相同标准的约束，它基本上会耗尽时间。而且，如果它不是诞生于价值数千亿美元的技术巨头，它也会耗尽资金。

在论文中，团队承认运行AlphaProof的计算需求很可能对大多数研究团体和有抱负的数学家来说成本过高。AI应用中的计算能力通常以TPU-天(张量处理单元工作一整天)来衡量。AlphaProof每个问题需要数百个TPU-天。

此外，国际数学奥林匹克竞赛是高中水平的竞赛，尽管问题确实困难，但基于数学家已经了解的知识。研究级数学需要发明全新的概念，而不仅仅是处理现有概念。

未来展望：超越竞赛的数学AI

尽管面临挑战，DeepMind相信他们可以克服这些障碍，优化AlphaProof使其资源消耗更少。Hubert表示："我们不希望止步于数学竞赛。我们希望构建一个真正能够为研究级数学做出贡献的AI系统。