人工智能在国际数学奥林匹克竞赛中崭露头角:OpenAI的“抢跑”引发争议
在人工智能领域,一项引人瞩目的进展正在悄然发生。OpenAI,这家一直走在技术前沿的公司,近日宣布其研发的AI语言模型在国际数学奥林匹克(IMO)中取得了金牌级别的表现。这一消息无疑为AI在逻辑推理和问题解决能力方面的潜力提供了新的证据。然而,伴随这一成就而来的,却是一场关于发布时机的争议,以及对AI评估方式的质疑。
OpenAI的“先发制人”
OpenAI的研究员亚历山大·魏在社交平台X上公布了这一消息,声称其AI模型在IMO中达到了金牌水平,能够与每年不到9%的人类参赛者相媲美。然而,这一宣布却违反了IMO组织方的要求,他们希望所有参与AI公司能够等到7月28日再公布结果。这一举动立即在IMO社群中引起了不小的震动。
据悉,该AI模型在与人类选手相同的条件下完成了比赛中的六道证明题:每场4.5小时,不允许使用互联网或计算器。然而,由于OpenAI自行评估了其IMO结果,这使得其声明的真实性受到了质疑。不过,OpenAI计划公开其证明过程和评分标准,以供公众审查。
OpenAI表示,他们的成就与以往的AI尝试不同,之前的尝试依赖于专业的定理证明系统,且通常超出人类的时间限制。OpenAI的模型能够以纯文本形式处理问题,并生成自然语言证明,更像是一个标准的语言模型,而非专门构建的数学系统。
Google的“银牌”与竞赛的新格局
此前,Google在2024年7月也曾宣布其AlphaProof和AlphaGeometry 2模型在IMO中获得了相当于银牌的成绩。然而,Google的系统需要长达三天的时间来解决一个问题,并且需要人工协助将问题转化为正式的数学语言。相比之下,OpenAI的模型的速度和自主性似乎更胜一筹。
OpenAI在一份声明中表示:“数学是推理的试验场——结构化、严谨且难以伪造。这表明,可扩展的通用方法现在可以在长期以来被认为遥不可及的任务中胜过手工调整的系统。”
虽然OpenAI证实其下一个主要AI模型GPT-5即将推出,但他们也明确表示,目前的模型仍处于实验阶段。“这些技术将会延续下去,但在短期内不会发布具有这种能力的任何产品,”OpenAI表示。这表明,OpenAI可能需要投入大量的计算资源来进行这项实验,而这种计算水平在不久的将来不会成为面向消费者的AI模型的典型特征。
通用AI模型的惊人成果
OpenAI表示,该实验性AI模型背后的研究团队最初并没有计划参加比赛,但在观察到测试中的良好结果后,他们决定评估其工作。“这不是一个为数学而构建的系统。它与我们用于语言、编码和科学的LLM相同——在标准的IMO约束下解决完整的基于证明的问题:4.5小时,没有互联网,没有计算器,”OpenAI在一份声明中说。
OpenAI收到了由IMO组织者编写并与几家AI公司同时分享的问题。为了验证结果,据报道,每个解决方案都经过了由OpenAI组织的三名前IMO奖牌获得者组成的小组的盲评,并且需要达成一致的共识才能被接受。
争议与反思
除了对自我评分的争议外,OpenAI还因为其周六的声明似乎违反了与国际数学奥林匹克的禁运协议而惹恼了IMO社区。另一家参与比赛的AI公司Harmonic在X帖子中透露,“IMO委员会已要求我们以及其他参与的领先AI公司推迟发布我们的结果,直到7月28日。”
这一提前宣布促使Google DeepMind将其自己的IMO相关公告提前到今天晚些时候发布,而Harmonic计划按原定计划于7月28日分享其结果。
这种混乱似乎源于IMO参与的不同途径。虽然一些AI公司直接与IMO委员会协调进行测试,但OpenAI独立运作,接收问题但未参与包括7月28日禁运协议在内的正式协调过程。
OpenAI研究员Noam Brown在X上为该时间安排辩护,称该公司“未与IMO联系”,仅在发布前与一位组织者进行了交谈。Brown声称他们等到闭幕式结束后才宣布,大约在太平洋时间凌晨1点左右,并且“在任何时候都没有人要求我们晚于该时间宣布。”
Brown进一步解释说,大约两个月前,IMO曾邀请OpenAI参加基于Lean的正式比赛,Lean是一种为编写数学证明而设计的编程语言。该公司拒绝了,因为他们“专注于自然语言中的通用推理,而不受Lean的约束。”他表示,他们“从未被告知有自然语言数学选项。”
然而,一位IMO协调员告诉X用户Mikhail Samin,OpenAI实际上是在闭幕式之前宣布的,这与Brown的说法相矛盾。协调员称OpenAI的行为“粗鲁和不恰当”,并指出OpenAI“不是与IMO合作测试其模型的AI公司之一。”
数学的挑战与AI的未来
自1959年以来,国际数学奥林匹克竞赛一直是数学推理领域最具挑战性的测试之一。超过100个国家派出六名参赛者,参赛者在两个4.5小时的会议中面临六个基于证明的问题。这些问题通常需要深刻的数学洞察力和创造力,而不是原始的计算能力。您可以在网上找到2025年奥林匹克竞赛的确切问题。
例如,第一个问题要求学生想象一个三角形的点阵(如三角形钉板),并找出如何使用n条直线覆盖所有点。关键在于,某些线被称为“阳光线”——这些线不水平、垂直或以45º角对角线运行。挑战在于证明无论你的三角形有多大,你只能创建具有0、1或3条阳光线的模式——永远不会有2条,永远不会有4条,永远不会有任何其他数字。
OpenAI结果的发布让一些预测市场感到惊讶,这些市场此前对任何AI系统在2025年之前赢得IMO金牌的可能性约为18%。
在OpenAI发布公告以及我们最初发表这篇文章之后,Google DeepMind也发布了其自己的IMO结果,声称其Gemini Deep Think模型也获得了金牌表现,解决了六个问题中的五个。与OpenAI不同,Google直接与IMO组织者合作,并由IMO协调员对其结果进行了正式评分和认证。
DeepMind高级科学家Thang Luong告诉Ars Technica,“我们已与IMO组织确认,我们实际上完美地解决了五个问题。我认为任何没有经过这个过程的人,我们都不知道,他们可能失去了一分并获得了银牌。”
总而言之,OpenAI在国际数学奥林匹克竞赛中的“抢跑”行为,不仅引发了关于AI评估标准和发布伦理的讨论,也预示着人工智能在解决复杂数学问题方面取得了显著进展。尽管争议不断,但AI在数学领域的潜力已不容忽视,未来的发展值得期待。