AGI定义之争:微软与OpenAI的裂痕,AI的未来走向何方?

1

人工通用智能(AGI):定义之争与未来走向

当人工智能系统智能到什么程度才能被称为人工通用智能(AGI)?微软和OpenAI曾达成一项协议,认为当AI创造1000亿美元的利润时,即可定义为AGI。但这种以利润为基础的衡量标准,反映了AI行业在定义上的混乱。

事实上,可能永远无法对AGI形成统一的定义,但很少有人愿意承认这一点。尽管科技行业的一些领军人物预言AGI即将到来,但对于AGI究竟意味着什么,各方观点不一。正如Google DeepMind在一篇论文中所写,如果让100位AI专家定义AGI,你将得到100个相关但不同的定义。

这种定义上的分歧,对AI系统的开发、监管和思考方式产生了实际影响。当公司宣称他们即将实现AGI时,他们究竟在宣称什么?

我倾向于用一种传统的方式来定义AGI,即强调其“通用”性:一种能够广泛泛化的AI模型,能够将概念应用于新的场景,并具备人类在不同领域执行不熟悉任务的多功能性,而无需为这些任务进行专门的训练。

然而,这种定义立刻引出了关于“人类水平”表现的棘手问题。是专家级的人类?还是普通人?在哪些任务上进行比较?AGI是否应该能够像人类专家一样进行手术、写诗、修理汽车引擎和证明数学定理?更根本的是,对人类水平的关注本身就是一个假设。我们有必要反思,为什么模仿人类智能是唯一的衡量标准?

微软和OpenAI之间关系的恶化,是定义混乱带来的最新例证。据《华尔街日报》报道,这两家公司正因无法就AGI的含义达成一致而陷入激烈的谈判,尽管他们已经签署了一项价值超过130亿美元的合同。

AGI定义的演变

人工通用智能(AGI)一词的起源较为模糊。尽管约翰·麦卡锡及其同事于1956年在达特茅斯学院创造了“人工智能”一词,但AGI出现得较晚。物理学家马克·古布鲁德在1997年首次使用了这个术语,但计算机科学家谢恩·莱格和AI研究员本·格策尔在2002年左右独立地重新引入了这个术语,并通过格策尔和卡西奥·佩纳钦编辑的2007年出版的图书《人工通用智能》普及了现代用法。

早期的AI研究人员设想,AI系统能够在所有领域与人类能力相媲美。1965年,AI先驱赫伯特·A·西蒙预测,“机器将在20年内能够完成人类所做的任何工作。”但随着机器人技术落后于计算技术的进步,AGI的定义范围缩小。目标从“做人类能做的一切”转变为“完成大多数具有经济价值的任务”,再到今天更加模糊的标准。

1928年的机器人

几十年来,图灵测试一直是衡量机器智能的事实标准。如果一台计算机可以通过文本对话,让一个人类评委误以为它是人类,那么它就被认为实现了某种程度的人类智能。但图灵测试已经过时。现代语言模型可以通过某些有限版本的测试,但这并不是因为它们像人类一样“思考”,而是因为它们非常擅长生成听起来像人类的输出。

当前AGI定义的现状,揭示了这个概念的分裂程度。OpenAI的章程将AGI定义为“在大多数具有经济价值的工作中,超越人类的高度自主系统”,这个定义像利润指标一样,依赖于经济进步来替代对认知能力的具体衡量。Meta的马克·扎克伯格表示,他对AGI没有“一句话的简洁定义”。OpenAI首席执行官萨姆·奥特曼认为,他的公司现在知道如何构建“我们传统上理解的”AGI。与此同时,据2023年《大西洋月刊》的报道,OpenAI前首席科学家伊利亚·萨茨克维甚至会将AGI视为一种神秘的东西,他会带领员工在公司会议上高呼“感受AGI!”,将这个概念视为一种精神追求,而非技术里程碑。

Anthropic的CEO Dario Amodei

Anthropic的首席执行官达里奥·阿莫代伊对AGI术语本身持怀疑态度。在他2024年10月的文章《爱意之机械》中,阿莫代伊写道,他认为“AGI是一个不精确的术语,带有很多科幻色彩和炒作”。他更喜欢使用“强大的AI”或“专家级科学与工程”等术语,认为这些术语能更好地抓住AI的能力,而没有相关的炒作。当阿莫代伊描述其他人可能称之为AGI的东西时,他将其描述为一个“比大多数相关领域中的诺贝尔奖获得者更聪明”的AI系统,该系统可以自主完成需要数小时、数天或数周才能完成的任务——本质上是“数据中心里的一群天才”。他对AGI术语的抵制,为定义的混乱增添了另一层:我们不仅对AGI的含义没有共识,而且一些领先的AI开发人员完全拒绝这个术语。

也许,谷歌DeepMind试图为这种混乱带来秩序。他们在2024年7月提出了一个框架,将AGI的表现分为五个等级:新兴、胜任、专家、大师和超人。DeepMind的研究人员认为,当时不存在超出“新兴AGI”的等级。在他们的系统中,当今最强大的LLM和模拟推理模型仍然属于“新兴AGI”,在各种任务中与非熟练人类相当或略好。

但这个框架有其批评者。非营利组织AI Now Institute的首席AI科学家海迪·克拉夫表示,她认为AGI的概念定义不清,无法进行严格的科学评估。事实上,由于存在如此多的不同定义,人们可能会认为AGI这个术语在技术上已经变得毫无意义。

当哲学遇到合同法

微软-OpenAI的争端说明了,当哲学思辨转化为法律义务时会发生什么。当两家公司签署合作协议时,他们加入了一个条款,规定当OpenAI实现AGI时,它可以限制微软对未来技术的访问。据《华尔街日报》报道,OpenAI的高管认为他们即将宣布实现AGI,而微软首席执行官萨蒂亚·纳德拉在2月份的Dwarkesh Patel播客中,称使用AGI作为自我宣告的里程碑的想法是“无稽之谈”。

前面提到的1000亿美元利润门槛,将商业成功与认知能力混为一谈,仿佛一个系统产生收入的能力,能够说明它是否像人类一样“思考”、“推理”或“理解”世界。

OpenAI的CEO Sam Altman

根据你的定义,我们可能已经拥有AGI,或者它可能在物理上无法实现。如果你将AGI定义为“在大多数任务中,AI的表现优于大多数人类”,那么当前的语言模型可能在某些类型的工作中达到了这个标准(哪些任务,哪些人类,什么是“更好”?),但对于这是否属实,远未达成共识。这并没有提及“超级智能”这个更模糊的概念——这是另一个模糊的术语,指的是一种假设的、像神一样的智力,远远超出人类的认知能力,以至于像AGI一样,它无法进行任何可靠的定义或衡量。

鉴于这种定义上的混乱,研究人员试图创建客观的基准来衡量AGI的进展,但这些尝试也暴露了自身的问题。

基准测试为何失效?

寻找更好的AGI基准,产生了一些图灵测试的替代方案。抽象和推理语料库(ARC-AGI)由弗朗索瓦·肖莱于2019年推出,旨在测试AI系统是否能够解决需要深入和新颖分析推理的新型视觉难题。

肖莱表示,目前几乎所有的AI基准测试都可以通过纯粹的记忆来解决。当前AI基准测试的一个主要问题是数据污染——当测试问题最终出现在训练数据中时,模型可以表现良好,而没有真正“理解”底层的概念。大型语言模型是模仿大师,模仿训练数据中发现的模式,但并不总是原创性地解决问题。

但即使像ARC-AGI这样复杂的基准测试也面临着一个根本问题:它们仍然试图将智能简化为一个分数。虽然改进的基准对于在科学框架内衡量经验进展至关重要,但智能不是你可以衡量的单一事物,比如身高或体重,它是一个复杂的能力集合,在不同的环境中表现不同。事实上,我们甚至没有对人类智能的完整功能定义,因此,通过任何单一的基准分数来定义人工智能,可能只能捕捉到完整图景的一小部分。

调查显示:AGI可能不会很快到来

毫无疑问,AI领域在包括计算机视觉、蛋白质折叠和翻译等众多领域取得了快速、切实的进展。对进展感到兴奋是合理的,但重要的是不要过早地夸大AI模型的能力。

尽管业内一些人士大肆宣传,但许多AI研究人员仍然怀疑AGI是否即将到来。人工智能促进协会(AAAI)在2025年3月进行的一项AI研究人员调查发现,大多数(76%)参与调查的研究人员认为,扩大当前的方法“不太可能”或“非常不可能”实现AGI。

然而,这种专家预测应该谨慎对待,因为研究人员一直对AI能力提升的快速步伐感到惊讶。格蕾丝等人对2778名AI研究人员进行的一项2024年调查发现,在2022-2023年的进展让他们感到惊讶后,专家们大大缩短了他们对AI里程碑的时间表。AI在所有可能的任务中超越人类的中值预测向前推进了13年,从2022年调查中的2060年变为2023年的2047年。这种低估的模式在多个基准中都很明显,许多研究人员对AI能力的预测在几个月内就被证明是错误的。

而且,随着科技格局的变化,AI的目标不断退缩。最近,随着更多的研究继续揭示模拟推理模型的局限性,行业内的一些专家已经慢慢地从即将实现AGI的说法中退缩。例如,AI播客主持人Dwarkesh Patel最近发表了一篇博文,认为开发AGI仍然面临着主要的瓶颈,特别是在持续学习方面,并预测我们仍然需要七年才能实现AI像人类一样无缝地在工作中学习。

定义为何重要?

我们在上面看到的,研究人员的共识、公司的术语定义和企业言论之间的脱节,产生了实际的影响。当决策者基于炒作而非科学证据,认为AGI即将到来时,他们可能会做出与现实不符的决策。当公司围绕未定义的术语签订合同时,他们可能会制造法律上的定时炸弹。

围绕AGI的定义混乱,不仅仅是哲学上的争论。公司利用对即将到来的AGI的承诺来吸引投资、人才和客户。政府根据AGI的时间表来制定政策。公众基于这些模糊的概念,对AI对就业和社会的影响形成了可能不切实际的期望。

没有明确的定义,我们就无法就AI的误用、监管或发展重点进行有意义的对话。我们最终会各说各话,乐观主义者和悲观主义者使用相同的词语来表达根本不同的含义。

面对这种挑战,有些人可能会试图完全放弃正式的定义,转而采取“我看到它就知道”的方法来定义AGI——这与最高法院大法官波特·斯图尔特关于淫秽的著名引言相呼应。这种主观标准可能感觉有用,但它对合同、监管或科学进展毫无用处。

也许,现在是时候超越AGI这个术语了。与其追逐一个定义不清、不断退缩到未来的目标,不如关注具体的能力:这个系统是否可以在不进行大量重新训练的情况下学习新任务?它能否解释其输出?它能否产生不会伤害或误导人们的安全输出?这些问题比任何关于AGI的猜测更能告诉我们AI的进展。最有效的方法可能是将AI的进展视为一个多维频谱,而不是一个具体的成就阈值。但要绘制这个频谱,需要新的基准,而这些基准尚不存在——以及对“智能”的坚定、经验性的定义,而这仍然难以捉摸。