AGI定义之争：微软与OpenAI的裂痕与AI的未来

在人工智能（AI）领域，通用人工智能（AGI）的概念一直备受关注，但对于AGI的定义，业界却始终未能达成共识。这种定义上的模糊不仅引发了学术界的争论，甚至导致了商业巨头如微软和OpenAI之间的分歧。本文将深入探讨AGI定义的困境，分析其对AI发展、监管以及商业合作的深远影响。

AGI：定义的迷雾

AGI，即通用人工智能，指的是一种具备广泛通用性的AI系统，能够在多个领域执行各种任务，达到甚至超越人类水平。然而，如何衡量“人类水平”的智能却是一个极具挑战性的问题。不同的专家、不同的机构，甚至同一家公司的不同部门，对AGI的理解都可能存在差异。有人认为，AGI应该具备在经济上创造价值的能力，例如产生1000亿美元的利润；也有人认为，AGI应该具备像人类专家一样解决复杂问题的能力。这种定义上的不确定性，使得AGI的衡量标准不断变化，也给AI的发展带来了诸多挑战。

在科技行业，许多高调人士都曾预测AGI即将到来，但他们对于AGI的具体含义却含糊其辞。Google DeepMind在一篇论文中指出，如果向100位AI专家询问AGI的定义，可能会得到100个相关但不同的答案。这种定义上的混乱不仅是学术上的争论，更对AI系统的开发、监管以及人们对AI的认知产生了实际影响。当公司声称即将实现AGI时，他们究竟在表达什么？

一种传统的AGI定义强调其“通用性”，即AI模型能够广泛地进行概括，将概念应用于新的场景，并在未经专门训练的情况下，在多个领域执行不熟悉的任务。然而，这种定义也引发了关于“人类水平”表现的疑问。AGI需要达到什么样的人类水平？是专家级人类？还是普通人类？AGI应该能够执行哪些任务？是进行手术、创作诗歌、修理汽车引擎，还是证明数学定理？此外，以人类作为衡量标准本身也是一种假设，我们需要思考，为什么模仿人类智能是唯一的标准。

微软与OpenAI的裂痕

AGI定义上的分歧甚至导致了微软和OpenAI之间的关系恶化。据《华尔街日报》报道，这两家公司陷入激烈的谈判，部分原因是它们对AGI的含义存在分歧。尽管双方已经签署了价值超过130亿美元的合同，但对于AGI的定义，双方却未能达成一致。

AGI定义的历史演变

AGI的概念起源较为模糊。虽然约翰·麦卡锡和他的同事在1956年的达特茅斯学院会议上提出了“人工智能”一词，但AGI的出现要晚得多。物理学家马克·古布鲁德在1997年首次使用了AGI一词，但直到2002年左右，计算机科学家谢恩·莱格和AI研究员本·格策尔才重新引入了这个概念。现代AGI的概念是由格策尔和卡西奥·佩纳钦在2007年出版的一本书中普及开来的。

早期的AI研究人员设想的系统能够胜任人类在所有领域的工作。1965年，AI先驱赫伯特·A·西蒙预测，机器将在20年内能够完成人类可以做的任何工作。但随着机器人技术的发展滞后于计算技术的进步，AGI的定义逐渐缩小。目标从“完成人类可以做的任何事情”转变为“完成最具经济价值的任务”，再到如今更加模糊的标准。

几十年里，图灵测试一直是衡量机器智能的标准。如果一台计算机能够通过文本对话欺骗人类，使其认为它是人类，那么它就被认为实现了某种程度的人类智能。但图灵测试已经过时。现代语言模型可以通过图灵测试，但这并不是因为它们像人类一样“思考”，而是因为它们能够生成高度逼真的人类语言输出。

AGI定义的现状

OpenAI的章程将AGI定义为“在大多数具有经济价值的工作中，表现优于人类的高度自主系统”。这种定义依赖于经济进步来衡量认知能力。Meta公司的马克·扎克伯格表示，他对AGI的概念没有一个“简洁的定义”。OpenAI的CEO萨姆·奥特曼认为，他的公司现在知道如何构建“我们传统上理解的”AGI。而OpenAI的前首席科学家伊利亚·萨茨克维则将AGI视为一种神秘的事物。据《大西洋月刊》2023年报道，他会在公司会议上带领员工高呼“感受AGI！”，将AGI视为一种精神追求，而非技术里程碑。

Dario Amodei, co-founder and chief executive officer of Anthropic, during the Bloomberg Technology Summit in San Francisco, California, US, on Thursday, May 9, 2024.

Anthropic的CEO达里奥·阿莫代伊对AGI的术语持怀疑态度。他在2024年10月的文章《充满爱意的机器》中写道，他认为“AGI是一个不精确的术语，充满了科幻色彩和炒作”。他更喜欢使用“强大的AI”或“专家级科学与工程”等术语，认为这些术语更能捕捉AGI的能力，而不会产生过多的炒作。阿莫代伊将AGI描述为一个“比大多数相关领域的诺贝尔奖得主更聪明”的AI系统，该系统可以自主完成需要数小时、数天或数周才能完成的任务，本质上是“一个数据中心里的天才国度”。他对AGI术语的抵制进一步加剧了定义上的混乱：我们不仅对AGI的含义没有达成一致，而且一些领先的AI开发者完全拒绝使用该术语。

Google DeepMind在2024年7月提出了一个框架，将AGI的表现分为五个级别：新兴、胜任、专家、大师和超人。DeepMind的研究人员认为，当时不存在超出“新兴AGI”的级别。根据他们的系统，目前最强大的LLM和模拟推理模型仍然属于“新兴AGI”，相当于或略好于在各种任务中不熟练的人类。

AI Now Institute的首席AI科学家海蒂·克拉夫认为，AGI的概念过于模糊，无法进行科学评估。事实上，由于存在如此多的不同定义，AGI一词可能已经失去了技术意义。

哲学与合同法的碰撞

微软与OpenAI的争端表明，当哲学思辨变成法律义务时，会发生什么。当这两家公司签署合作协议时，他们加入了一个条款，规定当OpenAI实现AGI时，它可以限制微软对未来技术的访问。《华尔街日报》报道称，OpenAI的高管认为他们即将宣布实现AGI，而微软CEO萨蒂亚·纳德拉则称，将AGI作为自我宣告的里程碑的想法是“无稽之谈”。

Sam Altman speaks onstage during The New York Times Dealbook Summit 2024 at Jazz at Lincoln Center on December 04, 2024 in New York City.

前面提到的1000亿美元利润阈值将商业成功与认知能力混为一谈，仿佛一个系统产生收入的能力可以说明它是否像人类一样“思考”、“推理”或“理解”世界。

根据不同的定义，我们可能已经拥有AGI，或者它可能在物理上无法实现。如果将AGI定义为“在大多数任务中，AI的表现优于大多数人”，那么目前的语言模型可能已经达到了某些类型工作的标准（哪些任务，哪些人，什么是“更好”？），但对于这是否属实，远未达成普遍共识。更不用说“超智能”这个更加模糊的概念了——这是另一个模糊的术语，指的是一种假设的、像上帝一样的智力，它远远超出了人类的认知范围，以至于像AGI一样，它无法用任何确定的定义或基准来衡量。

基准测试的困境

为了衡量AGI的进展，研究人员试图创建客观的基准，但这些尝试也暴露出自身的问题。对AGI基准的探索产生了一些有趣的替代图灵测试的方法。抽象和推理语料库（ARC-AGI）由弗朗索瓦·肖莱在2019年推出，旨在测试AI系统是否能够解决需要深度和新颖分析推理的新型视觉难题。

肖莱表示，目前几乎所有的AI基准都可以通过纯粹的记忆来解决。AI基准测试的一个主要问题是数据污染——当测试问题最终出现在训练数据中时，模型似乎表现良好，但实际上并没有“理解”底层的概念。大型语言模型是模仿大师，模仿训练数据中发现的模式，但并不总是原创地解决问题。

即使是像ARC-AGI这样复杂的基准测试，也面临着一个根本问题：它们仍然试图将智能简化为一个分数。虽然改进的基准对于在科学框架中衡量经验进展至关重要，但智能并不是一个可以像身高或体重那样衡量的单一事物——它是一个复杂的能力集合，在不同的环境中表现出不同的形式。事实上，我们甚至没有一个完整的人类智能功能定义，因此，通过任何单一的基准分数来定义人工智能，可能只能捕捉到完整图景的一小部分。

AGI：遥不可及的目标？

毫无疑问，人工智能领域在许多领域都取得了迅速而显著的进展，包括计算机视觉、蛋白质折叠和翻译。对进展感到兴奋是合理的，但重要的是不要过早地夸大AI模型的能力。

尽管业内一些人士大肆宣传，但许多AI研究人员仍然怀疑AGI是否即将到来。人工智能促进协会（AAAI）在2025年3月进行的一项调查发现，大多数（76%）参与调查的研究人员认为，扩大目前的方法“不太可能”或“非常不可能”实现AGI。

然而，这些专家预测应该谨慎对待，因为研究人员一直对人工智能能力提升的快速步伐感到惊讶。格蕾丝等人对2778名AI研究人员进行的一项调查发现，在2022-2023年取得进展后，专家们大幅缩短了他们对AI里程碑的时间表。人工智能在所有可能的任务中都能超越人类的中位数预测向前跃升了13年，从2022年调查中的2060年变为2023年的2047年。这种低估的模式在多个基准中都很明显，许多研究人员对AI能力的预测在几个月内就被证明是错误的。

然而，随着技术格局的变化，AGI的目标也在不断地后退。最近，随着越来越多的研究继续揭示模拟推理模型的局限性，业内一些专家已经开始慢慢地从即将实现AGI的说法中退缩。例如，AI播客主持人德瓦克什·帕特尔最近发表了一篇博客文章，认为开发AGI仍然面临着主要的瓶颈，特别是在持续学习方面，并预测我们距离AI能够像人类一样无缝地在工作中学习还有七年的时间。

AGI定义的重要性

研究人员的共识、公司的术语定义和企业言论之间的脱节产生了实际影响。当决策者基于炒作而非科学证据，认为AGI即将到来时，他们可能会做出与现实不符的决策。当公司围绕未定义的术语签订合同时，他们可能会制造法律上的定时炸弹。

围绕AGI的定义混乱不仅仅是哲学上的争论。公司利用即将到来的AGI的承诺来吸引投资、人才和客户。政府根据AGI的时间表制定政策。公众对AI对就业和社会的影响形成了可能不切实际的期望，而这些期望正是基于这些模糊的概念。

如果没有明确的定义，我们就无法就AI的误用、监管或发展重点进行有意义的对话。我们最终会各说各话，乐观主义者和悲观主义者使用相同的词语来表达截然不同的含义。

面对这种挑战，有些人可能会放弃正式的定义，转而采取“我看到它时就会知道它”的方法来定义AGI——这与最高法院大法官波特·斯图尔特关于淫秽的著名引言相呼应。这种主观标准可能感觉有用，但对于合同、监管或科学进步来说毫无用处。

也许现在是时候超越AGI这个术语了。与其追求一个定义不清的目标，不如关注具体的能力：这个系统能否在没有大量重新训练的情况下学习新的任务？它能否解释其输出？它能否产生不伤害或误导人的安全输出？这些问题比任何关于AGI的推测都能更好地说明AI的进展。最有效的方法可能是将AI的进展视为一个没有特定成就阈值的多维谱。但要绘制这个谱图，就需要新的基准——以及对“智能”的坚定、经验性的定义，而这仍然难以捉摸。