AGI定义之争:微软OpenAI陷分歧,通用人工智能路在何方?

1

人工通用智能(AGI):定义之争与未来之路

在人工智能(AI)领域,人工通用智能(AGI)一直是一个备受关注的概念。然而,AGI的定义至今仍未达成共识,甚至引发了科技巨头如微软和OpenAI之间的分歧。本文将深入探讨AGI定义的困境、历史演变、以及对行业的影响,并尝试为AGI的未来发展提出一些建议。

AGI:一个难以捉摸的概念

AGI,即Artificial General Intelligence,指的是一种具备人类水平的智能,能够在各种任务中表现出色的AI系统。然而,如何衡量“人类水平”的智能,本身就是一个复杂的问题。不同的定义标准导致AGI的实现目标不断变化,使得AGI的概念变得模糊不清。

文章开头提到的微软和OpenAI,据报道他们曾达成一项基于经济效益的AGI定义:当AI能够创造1000亿美元的利润时,就可被认为是AGI。这种将商业成功与认知能力划等号的做法,凸显了AGI定义上的混乱。

事实上,要为AGI找到一个通用的定义可能是不可能的。尽管如此,许多在该领域投入大量资金的人并不愿意承认这一点。科技行业的一些知名人士不断预言AGI即将到来,但他们对于AGI的理解却大相径庭。正如Google DeepMind在一篇论文中所说,如果你询问100位AI专家对AGI的定义,你将会得到100个相关但不同的答案。

An image of a faceless human silhouette (chest up) with exposed microchip contacts and circuitry erupting from its open head. This visual metaphor explores transhumanism, AI integration, or the erosion of organic thought in the digital age. The stark contrast between the biological silhouette and mechanical components highlights themes of technological dependence or posthuman evolution. Ideal for articles on neural implants, futurism, or the ethics of human augmentation.

这种定义上的混乱不仅仅是学术上的争论,它对AI系统的开发、监管以及我们对AI的思考方式产生了实际的影响。当公司声称他们即将实现AGI时,他们究竟在声称什么?

AGI的传统定义与挑战

一种较为传统的AGI定义强调其“通用性”,即AGI模型应该能够广泛地进行概括,将概念应用于新的场景,并具备人类在不同领域执行不熟悉任务的多功能性,而无需专门针对这些任务进行训练。

然而,这种定义立刻引出了关于“人类水平”表现的棘手问题。例如,AGI需要达到专家级人类的水平吗?还是平均水平?又应该在哪些任务上进行评估?AGI是否应该能够执行手术、创作诗歌、修理汽车引擎以及证明数学定理,并且达到人类专家的水平?更根本的是,以人类作为衡量标准本身就是一个假设。我们有必要反思,为什么模仿人类智能是唯一的标准?

微软和OpenAI之间关系的恶化,也反映了这种定义上的混乱。据《华尔街日报》报道,这两家公司目前正陷入激烈的谈判,部分原因在于他们无法就AGI的含义达成一致,尽管他们已经签署了一项价值超过130亿美元的合同,其中包含了AGI这一术语。

AGI定义的历史演变

AGI这个术语的起源并不清晰。虽然John McCarthy及其同事在1956年达特茅斯学院的会议上创造了“人工智能”这个术语,但AGI出现得要晚得多。物理学家Mark Gubrud在1997年首次使用了这个术语,但计算机科学家Shane Legg和AI研究员Ben Goertzel在2002年左右独立地重新提出了这个概念。Goertzel和Cassio Pennachin编辑的2007年出版的图书普及了现代AGI的使用。

早期的AI研究人员设想的系统可以匹配人类在所有领域的能力。1965年,AI先驱Herbert A. Simon预测,“机器将在20年内能够完成人类可以做的任何工作。”但随着机器人技术落后于计算技术的进步,AGI的定义范围缩小了。目标从“做人类能做的一切”转变为“做大多数具有经济价值的任务”,再到今天更加模糊的标准。

几十年以来,图灵测试一直是衡量机器智能的事实标准。如果一台计算机可以通过文本对话,欺骗人类法官,使其认为它是人类,那么该测试就认为它已经实现了某种程度的人类智能。但图灵测试已经过时了。现代语言模型可以通过一些有限的测试,但这并不是因为它们像人类一样“思考”,而是因为它们非常擅长创造听起来很像人类的输出。

目前AGI定义的现状表明,这个概念已经变得多么分散。OpenAI的章程将AGI定义为“在大多数具有经济价值的工作中,胜过人类的高度自主系统”,这种定义像利润指标一样,依赖于经济进步来代替衡量认知能力。Meta的Mark Zuckerberg表示,他对AGI没有“一句简洁的定义”。OpenAI的CEO Sam Altman认为,他的公司现在知道如何构建“我们传统上理解的”AGI。与此同时,据2023年《大西洋月刊》的报道,OpenAI前首席科学家Ilya Sutskever将AGI视为某种近乎神秘的事物,他会带领员工在公司会议上高呼“感受AGI!”,将这个概念视为一种精神追求,而不是一个技术里程碑。

Dario Amodei, co-founder and chief executive officer of Anthropic, during the Bloomberg Technology Summit in San Francisco, California, US, on Thursday, May 9, 2024.

Anthropic的CEO Dario Amodei对AGI的术语本身持怀疑态度。在他2024年10月的文章《Machines of Loving Grace》中,Amodei写道,他认为“AGI是一个不精确的术语,带有很多科幻色彩和炒作。”相反,他更喜欢“强大的AI”或“专家级科学与工程”这样的术语,他认为这些术语可以更好地捕捉AI的能力,而没有相关的炒作。当Amodei描述其他人可能称之为AGI的事物时,他将其描述为一个“比大多数相关领域的诺贝尔奖获得者更聪明”的AI系统,该系统可以自主地完成需要数小时、数天或数周才能完成的任务——本质上是“一个数据中心里的天才之国”。他对AGI术语的抵制,为AGI定义的混乱增加了一层含义:我们不仅对AGI的含义没有达成一致,而且一些领先的AI开发人员完全拒绝这个术语。

谷歌DeepMind在2024年7月提出了一个框架,将AGI的性能分为五个级别:新兴、有能力、专家、 virtuoso 和超人。DeepMind的研究人员认为,当时不存在超出“新兴AGI”的级别。根据他们的系统,当今最强大的LLM和模拟推理模型仍然属于“新兴AGI”——在各种任务中,与非熟练工人水平相当或略好。

但是,这个框架有其批评者。非营利组织AI Now Institute的首席AI科学家Heidy Khlaaf表示,她认为AGI的概念定义不清,无法进行“严格的科学评估”。事实上,由于存在如此多不同的定义,有人可能会认为AGI这个术语在技术上已经变得毫无意义。

当哲学遇到合同法

微软-OpenAI的争端说明了,当哲学思辨变成法律义务时会发生什么。当两家公司签署合作协议时,他们加入了一个条款,规定当OpenAI实现AGI时,它可以限制微软对未来技术的访问。《华尔街日报》报道称,OpenAI的高管认为他们即将宣布AGI,而微软CEO Satya Nadella在2月份的Dwarkesh Patel播客中,称使用AGI作为一个自我声明的里程碑是“毫无意义的基准黑客行为”。

我们前面提到的1000亿美元利润门槛,将商业上的成功与认知能力混为一谈,就好像一个系统产生收入的能力,可以说明它是否像人类一样“思考”、“推理”或“理解”世界。

Sam Altman speaks onstage during The New York Times Dealbook Summit 2024 at Jazz at Lincoln Center on December 04, 2024 in New York City.

根据你的定义,我们可能已经拥有AGI,或者它可能在物理上无法实现。如果你将AGI定义为“AI在大多数任务中的表现优于大多数人”,那么当前的语言模型可能会满足某些类型工作的标准(哪些任务,哪些人,什么是“更好”?),但是对于这是否属实,远未达成共识。这并没有说明“超级智能”这个更加模糊的概念——这是另一个模糊的术语,指的是一种假想的、像神一样的智力,它远远超出了人类的认知范围,就像AGI一样,它拒绝任何可靠的定义或基准。

鉴于这种定义上的混乱,研究人员试图创建客观的基准来衡量AGI的进展,但是这些尝试也暴露出了一系列问题。

为什么基准测试总是失败

寻找更好的AGI基准测试,产生了一些有趣的图灵测试替代方案。Abstraction and Reasoning Corpus (ARC-AGI) 由François Chollet在2019年推出,它测试AI系统是否可以解决需要深入和新颖的分析推理的新型视觉难题。

Chollet在2024年8月表示:“几乎所有当前的AI基准测试都可以通过纯粹的记忆来解决。”目前AI基准测试的一个主要问题,源于数据污染——当测试问题最终出现在训练数据中时,模型似乎表现良好,而没有真正“理解”其基本概念。大型语言模型是模仿大师,模仿在训练数据中发现的模式,但并非总是能为问题创造新的解决方案。

但是,即使是像ARC-AGI这样的复杂基准测试,也面临一个根本问题:它们仍然试图将智能降低到一个分数。虽然改进的基准测试对于在科学框架中衡量经验进展至关重要,但智能不是你可以衡量的单一事物,例如身高或体重——它是不同环境中以不同方式表现出来的复杂能力集合。事实上,我们甚至没有对人类智能的完整功能定义,因此,通过任何单一基准评分来定义人工智能,可能只能捕捉到完整图景的一小部分。

调查显示:AGI可能不会很快到来

毫无疑问,AI领域在包括计算机视觉、蛋白质折叠和翻译在内的许多领域,都取得了迅速而切实的进展。对进展感到兴奋是合理的,但重要的是不要过早地夸大AI模型的能力。

尽管业内一些人士大肆宣传,但许多AI研究人员仍然怀疑AGI会在短期内出现。人工智能促进协会(AAAI)在2025年3月对AI研究人员进行的一项调查发现,大多数(76%)参与调查的研究人员认为,扩展当前的方法“不太可能”或“非常不可能”实现AGI。

但是,应该对这种专家预测持保留态度,因为研究人员一直对AI能力提升的快速步伐感到惊讶。Grace等人对2778名AI研究人员进行的2024年调查发现,在2022-2023年的进展感到惊讶之后,专家们大大缩短了他们对AI里程碑的时间表。AI在所有可能的任务中都可能胜过人类的中位数预测向前跃升了13年,从2022年调查中的2060年到2023年的2047年。这种低估的模式在多个基准测试中都很明显,许多研究人员对AI能力的预测在几个月内就被证明是错误的。

然而,随着技术格局的变化,AI的目标也在不断地后退。最近,随着越来越多的研究继续揭示模拟推理模型的局限性,业内一些专家已经慢慢地退出了即将推出AGI的说法。例如,AI播客主持人Dwarkesh Patel最近发表了一篇博客文章,认为开发AGI仍然面临着主要的瓶颈,尤其是在持续学习方面,并预测我们距离AI能够像人类一样无缝地在工作中学习还有七年的时间。

为什么定义很重要

我们在上面看到的,研究人员的共识、公司术语的定义和企业言论之间的脱节,产生了实际的影响。当政策制定者基于炒作而不是科学证据,而表现得好像AGI即将到来时,他们就有可能做出与现实不符的决定。当公司围绕未定义的术语制定合同时,他们可能会埋下法律上的定时炸弹。

围绕AGI的定义混乱不仅仅是哲学上的争论。公司利用即将推出AGI的承诺来吸引投资、人才和客户。政府会根据AGI的时间表来制定政策。公众对AI对就业和社会的影响,形成了可能不切实际的期望,而这些期望是基于这些模糊的概念。

没有明确的定义,我们就无法就AI的错误应用、监管或发展重点进行有意义的对话。最终,我们只是在自说自话,乐观主义者和悲观主义者使用相同的词语,却表达着截然不同的含义。

面对这种挑战,有些人可能会试图完全放弃正式的定义,转而采取“当我看到它时,我就知道了”的方法来定义AGI——这与最高法院大法官Potter Stewart关于淫秽的著名言论相呼应。这种主观标准可能感觉有用,但对于合同、监管或科学进步而言,它毫无用处。

也许现在是时候超越AGI这个术语了。与其追逐一个定义不清的目标,不如专注于具体的能力:这个系统能否在没有大量重新训练的情况下学习新任务?它能解释其输出吗?它能产生不会伤害或误导人们的安全输出吗?这些问题比任何AGI的推测都能告诉我们更多关于AI进展的信息。最有效的方法可能是将AI的进展,视为一个没有具体成就阈值的多维光谱。但是,要绘制该光谱,就需要新的基准,以及对“智能”的坚定、经验性的定义,而这仍然是难以捉摸的。