人工通用智能(AGI)定义之争:挑战与未来展望

1

人工通用智能(AGI):定义之争与未来走向

在人工智能领域,人工通用智能(AGI)是一个备受关注但又充满争议的概念。尽管科技行业对 AGI 的讨论热度持续高涨,但对于 AGI 的确切定义,各方观点不一,甚至引发了科技巨头之间的分歧。本文旨在探讨 AGI 定义的困境、历史演变、衡量标准以及未来发展方向,以期为业界提供更清晰的认知框架。

AGI 定义的困境

AGI 的定义问题并非简单的学术探讨,而是直接影响着 AI 技术的开发、监管和商业化。当企业宣称即将实现 AGI 时,其具体含义是什么?如果无法达成共识,那么围绕 AGI 的投资、研究和政策制定都将面临挑战。

一个被广泛认可的 AGI 定义是:一种能够广泛泛化的 AI 模型,可以将概念应用于新的场景,并在未经过专门训练的情况下,胜任多个领域内的各种任务。然而,这个定义立刻引出了一个问题:如何衡量“人类水平”的性能?是专家级人类还是普通人类?AGI 是否需要具备执行手术、创作诗歌、修理汽车引擎和证明数学定理等多种能力,并且达到人类专家的水平?显然,没有任何一个人能够做到这些。

An image of a faceless human silhouette (chest up) with exposed microchip contacts and circuitry erupting from its open head. This visual metaphor explores transhumanism, AI integration, or the erosion of organic thought in the digital age. The stark contrast between the biological silhouette and mechanical components highlights themes of technological dependence or posthuman evolution. Ideal for articles on neural implants, futurism, or the ethics of human augmentation.

微软和 OpenAI 之间的分歧凸显了 AGI 定义的重要性。据报道,两家公司在 AGI 的定义上存在争议,导致双方的合作关系紧张。OpenAI 认为其技术已经接近 AGI 的水平,而微软则对此持怀疑态度。这种分歧源于双方对 AGI 的理解不同,以及对 AGI 实现后可能产生的商业影响的预期差异。

AGI 定义的历史演变

“人工通用智能”一词的起源较为模糊。尽管约翰·麦卡锡及其同事于 1956 年在达特茅斯学院创造了“人工智能”一词,但 AGI 的出现要晚得多。物理学家马克·古布鲁德于 1997 年首次使用该术语,但计算机科学家 Shane Legg 和 AI 研究员 Ben Goertzel 在 2002 年左右独立地重新引入了该术语,并通过 Goertzel 和 Cassio Pennachin 编辑的 2007 年出版的一本书普及了现代用法。

早期的 AI 研究人员设想的系统可以在所有领域匹配人类的能力。1965 年,AI 先驱赫伯特·A·西蒙预测“机器将在 20 年内能够完成人类可以做的任何工作。”但随着机器人技术落后于计算进步,定义范围缩小了。目标转移了,部分原因是对此不平衡进展的实际反应,从“做人类可以做的一切”到“做大多数经济上有价值的任务”到今天更加模糊的标准。

在过去几十年里,图灵测试一直是衡量机器智能的标准。如果一台计算机能够通过文本对话,让一位人类评委相信它是人类,那么它就被认为实现了某种程度的人类智能。然而,现代语言模型已经能够在一定程度上通过图灵测试,但这并不意味着它们真的像人类一样“思考”,而是因为它们能够生成高度逼真的人类语言输出。

目前,AGI 的定义呈现出碎片化的状态。OpenAI 的章程将 AGI 定义为“在大多数经济上有价值的工作中,表现优于人类的高度自主系统”,这种定义依赖于经济进步来衡量认知能力。Meta 的 CEO 马克·扎克伯格承认,他对 AGI 没有一个“简洁明了的定义”。OpenAI 的 CEO 萨姆·奥特曼认为,他的公司现在知道如何构建“传统意义上理解的”AGI。与此同时,前 OpenAI 首席科学家 Ilya Sutskever 将 AGI 视为一种几乎神秘的事物,他甚至会在公司会议上带领员工高呼“感受 AGI!”,将 AGI 视为一种精神追求,而非技术里程碑。

Dario Amodei, co-founder and chief executive officer of Anthropic, during the Bloomberg Technology Summit in San Francisco, California, US, on Thursday, May 9, 2024.

Anthropic 的 CEO Dario Amodei 对 AGI 的术语本身持怀疑态度。他认为 AGI 是一个不精确的术语,充满了科幻色彩和炒作。他更喜欢使用“强大的 AI”或“专家级科学与工程”等术语,他认为这些术语能够更好地捕捉 AI 的能力,而不会引起不必要的炒作。当 Amodei 描述其他人可能称之为 AGI 的事物时,他将其定义为“比大多数相关领域的诺贝尔奖获得者更聪明”的 AI 系统,该系统可以自主完成需要数小时、数天或数周才能完成的任务,本质上是“数据中心里的天才之国”。

谷歌 DeepMind 试图系统地规范 AGI 的定义。2024 年 7 月,DeepMind 提出了一个 AGI 性能框架,将 AGI 分为五个级别:新兴、胜任、专家、大师和超人。DeepMind 的研究人员认为,当时不存在“新兴 AGI”以上的级别。按照他们的体系,当今最强大的 LLM 和模拟推理模型仍然属于“新兴 AGI”,相当于或略高于在各种任务中表现不佳的人类。

然而,DeepMind 的框架也受到了批评。AI Now Institute 的首席 AI 科学家 Heidy Khlaaf 认为,AGI 的概念过于模糊,无法进行科学评估。事实上,由于存在如此多不同的定义,AGI 一词可能已经失去了技术意义。

AGI 衡量标准的挑战

为了更客观地衡量 AGI 的进展,研究人员提出了各种基准测试,但这些尝试也暴露出自身的问题。

抽象和推理语料库(ARC-AGI)是 François Chollet 于 2019 年提出的一个基准测试,旨在测试 AI 系统解决需要深度分析推理的新型视觉难题的能力。Chollet 认为,目前大多数 AI 基准测试都可以通过记忆来解决。AI 基准测试的一个主要问题是数据污染,即测试问题最终出现在训练数据中,导致模型在没有真正“理解”底层概念的情况下,表现出良好的性能。大型语言模型是模仿大师,它们模仿训练数据中的模式,但并不总是能创造性地解决问题。

然而,即使是像 ARC-AGI 这样复杂的基准测试,也面临着一个根本问题:它们仍然试图将智能简化为一个分数。虽然改进的基准测试对于衡量科学框架中的经验进展至关重要,但智能并不是一个可以像身高或体重一样衡量的单一事物,它是一系列复杂的能力,在不同的环境中表现不同。事实上,我们甚至没有人类智能的完整功能定义,因此通过任何单一基准分数来定义人工智能,都可能只捕捉到整个图景的一小部分。

AGI 的未来展望

尽管 AI 领域在计算机视觉、蛋白质折叠和翻译等领域取得了显著进展,但许多 AI 研究人员仍然对 AGI 的实现持谨慎态度。美国人工智能协会(AAAI)在 2025 年 3 月进行的一项调查发现,大多数研究人员认为,扩展当前的方法“不太可能”或“非常不可能”实现 AGI。

Sam Altman speaks onstage during The New York Times Dealbook Summit 2024 at Jazz at Lincoln Center on December 04, 2024 in New York City.

然而,专家预测也应谨慎对待,因为研究人员总是对 AI 能力的快速发展感到惊讶。一项调查发现,在 2022-2023 年的进展让他们感到惊讶之后,专家们大大缩短了 AI 里程碑的时间表。AI 在所有可能的任务中超越人类的中值预测向前跃升了 13 年,从 2022 年调查中的 2060 年到 2023 年的 2047 年。这种低估模式在多个基准中都很明显,许多研究人员对 AI 能力的预测在几个月内就被证明是错误的。

随着技术格局的变化,AI 的目标不断变化。最近,随着更多研究不断揭示模拟推理模型的局限性,一些业内专家已经逐渐放弃了对 AGI 即将到来的说法。例如,AI 播客主持人 Dwarkesh Patel 最近发表了一篇博客文章,认为 AGI 的开发仍然面临重大瓶颈,尤其是在持续学习方面,并预测我们距离 AI 像人类一样无缝地在工作中学习还有七年的时间。

AGI 定义的重要性

研究人员的共识、公司术语定义和企业言论之间的脱节,对 AI 的发展产生了实际影响。当政策制定者基于炒作而非科学证据,认为 AGI 即将到来时,他们可能会做出与现实不符的决策。当公司围绕未定义的术语签订合同时,他们可能会埋下法律隐患。

围绕 AGI 的定义混乱不仅仅是哲学上的争论。公司利用对 AGI 即将到来的承诺来吸引投资、人才和客户。政府根据 AGI 的时间表制定政策。公众对 AI 对工作和社会的影响形成了可能不切实际的期望。

如果没有明确的定义,我们就无法就 AI 的滥用、监管或发展重点进行有意义的对话。我们最终会各说各话,乐观主义者和悲观主义者使用相同的词语来表达根本不同的含义。

面对这种挑战,有些人可能会放弃正式的定义,转而采取“我看到它就会知道”的方法来定义 AGI。这种主观标准可能感觉有用,但它对合同、监管或科学进步毫无用处。

也许现在是时候超越 AGI 这个术语了。与其追逐一个定义不清的目标,不如关注具体的能力:这个系统能否在没有大量重新训练的情况下学习新任务?它能否解释其输出?它能否产生不伤害或误导人们的安全输出?这些问题比任何 AGI 的推测都能告诉我们更多关于 AI 进展的信息。最有效的方法可能是将 AI 的进展视为一个多维频谱,没有具体的成就阈值。但要绘制该频谱,需要新的基准,以及对“智能”的坚定、经验性的定义,而这些仍然难以捉摸。