AGI定义之争：微软与OpenAI的分歧与AI的未来走向

人工通用智能（AGI）：定义之争与未来走向

在人工智能领域，人工通用智能（AGI）无疑是最受瞩目，同时也最具争议的概念之一。AGI旨在创造一种能够像人类一样在各种任务中表现出色的智能系统，但究竟什么才算得上是AGI？这个问题不仅困扰着学术界，也让科技巨头们争论不休。最近，微软和OpenAI之间就因AGI的定义问题产生了分歧，这充分暴露了AGI概念的模糊性和复杂性。

AGI：一个难以捉摸的定义

AGI的定义之争由来已久。如果向100位AI专家提问AGI的定义，你可能会得到100个不同但相关的答案。这种定义上的混乱并非纯粹的学术问题，而是直接影响着AI技术的发展、监管和应用。当公司宣称他们即将实现AGI时，他们究竟在说什么？

一种常见的AGI定义是指能够广泛泛化的AI模型，即能够将概念应用于新的场景，并在未经专门训练的情况下，在多个领域执行不熟悉的任务。然而，这种定义立刻引出了一个棘手的问题：什么是“人类水平”的性能？是专家级人类？还是普通人类？AGI是否应该能够像人类专家一样执行手术、写诗、修理汽车发动机和证明数学定理？（有哪个人类能做到所有这些？）更根本的是，以人类为基准本身就是一个假设。为什么模仿人类智能一定是唯一的衡量标准？

微软和OpenAI之间的分歧就是一个典型的例子。据《华尔街日报》报道，这两家公司目前正陷入激烈的谈判，部分原因在于他们对AGI的含义存在分歧，尽管他们已经签署了一份价值超过130亿美元的合同，其中明确提到了AGI。

AGI定义的演变：一个不断移动的靶子

“人工通用智能”一词的起源并不明确。虽然约翰·麦卡锡和他的同事在1956年达特茅斯学院的会议上创造了“人工智能”一词，但AGI的出现要晚得多。物理学家马克·古布鲁德在1997年首次使用了这个术语，但直到2002年左右，计算机科学家谢恩·莱格和AI研究员本·格策尔才独立地重新引入了这个术语。现代用法因格策尔和卡西奥·佩纳钦编辑的2007年出版的一本书而普及。

早期的AI研究人员设想的系统可以在所有领域与人类的能力相匹配。1965年，AI先驱赫伯特·A·西蒙预测，“机器将在20年内能够完成人类可以做的任何工作。”但随着机器人技术落后于计算的进步，定义缩小了。目标不断转移，部分原因是对此不平衡进展的实际反应，从“做人类可以做的任何事情”到“做大多数经济上有价值的任务”，再到今天更加模糊的标准。

几十年来，图灵测试一直是衡量机器智能的事实标准。如果一台计算机可以通过文本对话欺骗人类评委，使其认为它是人类，那么该测试推测，它已经实现了某种类似于人类智能的东西。但图灵测试已经显示出它的局限性。现代语言模型可以通过一些有限版本的测试，不是因为它们像人类一样“思考”，而是因为它们非常擅长创建高度逼真的人类语音输出。

目前AGI定义的现状揭示了这个概念已经变得多么分散。OpenAI的章程定义AGI为“在大多数经济上有价值的工作中胜过人类的高度自主系统”——这个定义像利润指标一样，依赖于经济进步来代替以具体方式衡量认知。马克·扎克伯格告诉The Verge，他没有这个概念的“一句话，简洁的定义”。OpenAI首席执行官萨姆·奥特曼认为他的公司现在知道如何构建AGI“正如我们传统上理解的那样”。与此同时，据2023年大西洋月刊的一份报告，前OpenAI首席科学家伊利亚·萨茨克维尔将AGI视为几乎是神秘的东西——他会带领员工在公司会议上高呼“感受AGI！”，将这个概念更多地视为一种精神追求，而不是一个技术里程碑。

Dario Amodei, co-founder and chief executive officer of Anthropic, during the Bloomberg Technology Summit in San Francisco, California, US, on Thursday, May 9, 2024.

Anthropic首席执行官达里奥·阿莫代伊对术语本身采取了更为怀疑的立场。在他2024年10月的文章“充满爱意的机器”中，阿莫代伊写道，他发现“AGI是一个不精确的术语，它收集了大量的科幻行李和炒作。”相反，他更喜欢诸如“强大的AI”或“专家级科学与工程”之类的术语，他认为这些术语可以更好地捕捉能力，而没有相关的炒作。当阿莫代伊描述其他人可能称之为AGI的东西时，他将其定义为“比大多数相关领域中的诺贝尔奖获得者更聪明”的AI系统，该系统可以自主完成需要数小时、数天或数周才能完成的任务——本质上是“数据中心里的天才之国”。他对AGI术语的抵制为定义的混乱增加了一层：我们不仅不同意AGI的含义，而且一些领先的AI开发人员完全拒绝该术语。

谷歌DeepMind试图给这种混乱带来秩序，他们在2024年7月提出了一个框架，其中包含五个AGI性能级别：新兴、有能力、专家、大师和超人。DeepMind的研究人员认为，当时不存在超出“新兴AGI”的级别。在他们的系统中，当今最强大的LLM和模拟推理模型仍然符合“新兴AGI”的资格——在各种任务中，与非熟练的人类相当或略好。

但这个框架有其批评者。非营利组织AI Now Institute的首席AI科学家海蒂·赫拉夫告诉TechCrunch，她认为AGI的概念过于定义不清，无法“进行严格的科学评估”。事实上，由于存在如此多不同的定义，有人可能会争辩说，AGI这个术语在技术上已经变得毫无意义。

当哲学遇到合同法

微软-OpenAI的纠纷说明了当哲学思辨变成法律义务时会发生什么。当两家公司签署合作协议时，他们 включили 条款规定，当OpenAI实现AGI时，它可以限制微软访问未来的技术。据《华尔街日报》报道，OpenAI的高管认为他们即将宣布AGI，而微软首席执行官萨蒂亚·纳德拉在2月份的Dwarkesh Patel播客中称使用AGI作为自我宣告的里程碑的想法是“无稽之谈的基准黑客行为”。

我们之前提到的1000亿美元利润门槛将商业成功与认知能力混为一谈，就好像一个系统产生收入的能力说明了它是否可以像人类一样“思考”、“推理”或“理解”世界。

Sam Altman speaks onstage during The New York Times Dealbook Summit 2024 at Jazz at Lincoln Center on December 04, 2024 in New York City.

根据你的定义，我们可能已经拥有AGI，或者可能在物理上无法实现。如果你将AGI定义为“在大多数任务中表现优于大多数人类的AI”，那么当前的语言模型可能符合某些类型工作的标准（哪些任务，哪些人类，“更好”是什么？），但对这是否属实的共识远未达成。这并没有说明更加模糊的“超级智能”概念——另一个模糊的术语，用于描述一种假设的、类似神灵的智力，它远远超出了人类的认知，就像AGI一样，它违背了任何明确的定义或基准。

鉴于这种定义的混乱，研究人员试图创建客观的基准来衡量AGI的进展，但这些尝试揭示了它们自身的问题。

为什么基准不断让我们失望

寻找更好的AGI基准产生了一些图灵测试的有趣替代方案。抽象和推理语料库（ARC-AGI），由François Chollet在2019年推出，测试AI系统是否可以解决需要深入和新颖分析推理的新颖视觉难题。

Chollet在2024年8月告诉Freethink，“几乎所有当前的AI基准都可以完全通过记忆来解决。”当前AI基准的一个主要问题源于数据污染——当测试问题最终出现在训练数据中时，模型似乎表现良好，而没有真正“理解”基本概念。大型语言模型充当模仿大师，模仿训练数据中发现的模式，但并不总是产生解决问题的新颖方法。

但即使是像ARC-AGI这样复杂的基准也面临一个根本问题：它们仍然试图将智能简化为一个分数。虽然改进的基准对于在科学框架中衡量经验进展至关重要，但智能并不是你可以衡量的单一事物，比如身高或体重——它是一个复杂的能力集合，在不同的环境中表现不同。事实上，我们甚至没有人类智能的完整功能定义，因此通过任何单一基准分数来定义人工智能可能只能捕捉到完整图景的一小部分。

调查显示：AGI可能不会很快到来

毫无疑问，AI领域在许多领域取得了迅速而切实的进展，包括计算机视觉、蛋白质折叠和翻译。对进展的一些兴奋是合理的，但重要的是不要过早地夸大AI模型的能力。

尽管业内一些人士大肆宣传，但许多AI研究人员仍然怀疑AGI即将到来。2025年3月的一项调查由人工智能促进协会（AAAI）对AI研究人员进行的调查发现，参与调查的大多数（76%）研究人员认为，扩大当前的方法“不太可能”或“非常不可能”实现AGI。

然而，应该对这些专家预测持保留态度，因为研究人员一直对AI能力进步的快速步伐感到惊讶。Grace等人于2024年进行的一项调查，调查了2,778名AI研究人员，发现专家们在2022-2023年的进展感到惊讶后，大大缩短了他们对AI里程碑的时间表。在AI可以在所有可能的任务中胜过人类的中位数预测向前跳了13年，从2022年调查中的2060年到2023年的2047年。这种低估的模式在多个基准中都很明显，许多研究人员对AI能力的预测在几个月内被证明是错误的。

然而，随着技术格局的变化，AI的目标继续以恒定的速度后退。最近，随着越来越多的研究继续揭示在模拟推理模型中的局限性，业内一些专家已经慢慢地退出了对即将到来的AGI的说法。例如，AI播客主持人Dwarkesh Patel最近发表了一篇博客文章，认为开发AGI仍然面临主要的瓶颈，尤其是在持续学习方面，并预测我们离AI能够像人类一样无缝地在工作中学习还有七年的时间。

为什么定义很重要

我们上面看到的在研究人员共识、公司术语定义和公司言论之间的脱节产生了实际影响。当决策者根据炒作而不是科学证据表现得好像AGI即将到来时，他们可能会做出与现实不符的决定。当公司围绕未定义的术语编写合同时，他们可能会制造法律定时炸弹。

围绕AGI的定义混乱不仅仅是哲学上的争论。公司利用即将到来的AGI的承诺来吸引投资、人才和客户。政府根据AGI的时间表制定政策。公众对AI对就业和社会的影响形成了可能不切实际的期望，而这些期望是基于这些模糊的概念。

没有明确的定义，我们就无法就AI的误用、监管或发展重点进行有意义的对话。我们最终会互相说过去，乐观主义者和悲观主义者使用相同的词来表示根本不同的事物。

面对这种挑战，有些人可能会试图完全放弃正式定义，转而采用AGI的“当我看到它时我就知道了”的方法——呼应最高法院大法官波特·斯图尔特的名言关于淫秽。这种主观标准可能感觉有用，但它对合同、监管或科学进步毫无用处。

也许是时候超越AGI这个术语了。与其追逐一个定义不清的目标，该目标不断退缩到未来，不如关注具体的能力：这个系统可以在没有大量重新训练的情况下学习新任务吗？它可以解释其输出吗？它可以产生不会伤害或误导人们的安全输出吗？这些问题比任何AGI推测都能告诉我们更多关于AI进展的信息。最有效的前进方式可能是将AI的进展视为一个多维的谱，而没有具体的成就阈值。但绘制该谱将需要尚不存在的新基准——以及仍然难以捉摸的“智能”的坚定、经验定义。