人工通用智能(AGI):定义之争与未来之路
在人工智能(AI)领域,人工通用智能(AGI)一直是一个备受关注的概念。然而,AGI的定义至今仍未达成共识,甚至引发了科技巨头如微软和OpenAI之间的分歧。本文将深入探讨AGI定义的困境、历史演变、以及对行业的影响,并尝试为AGI的未来发展提出一些建议。
AGI:一个难以捉摸的概念
AGI,即Artificial General Intelligence,指的是一种具备人类水平的智能,能够在各种任务中表现出色的AI系统。然而,如何衡量“人类水平”的智能,本身就是一个复杂的问题。不同的定义标准导致AGI的实现目标不断变化,使得AGI的概念变得模糊不清。
文章开头提到的微软和OpenAI,据报道他们曾达成一项基于经济效益的AGI定义:当AI能够创造1000亿美元的利润时,就可被认为是AGI。这种将商业成功与认知能力划等号的做法,凸显了AGI定义上的混乱。
事实上,要为AGI找到一个通用的定义可能是不可能的。尽管如此,许多在该领域投入大量资金的人并不愿意承认这一点。科技行业的一些知名人士不断预言AGI即将到来,但他们对于AGI的理解却大相径庭。正如Google DeepMind在一篇论文中所说,如果你询问100位AI专家对AGI的定义,你将会得到100个相关但不同的答案。
这种定义上的混乱不仅仅是学术上的争论,它对AI系统的开发、监管以及我们对AI的思考方式产生了实际的影响。当公司声称他们即将实现AGI时,他们究竟在声称什么?
AGI的传统定义与挑战
一种较为传统的AGI定义强调其“通用性”,即AGI模型应该能够广泛地进行概括,将概念应用于新的场景,并具备人类在不同领域执行不熟悉任务的多功能性,而无需专门针对这些任务进行训练。
然而,这种定义立刻引出了关于“人类水平”表现的棘手问题。例如,AGI需要达到专家级人类的水平吗?还是平均水平?又应该在哪些任务上进行评估?AGI是否应该能够执行手术、创作诗歌、修理汽车引擎以及证明数学定理,并且达到人类专家的水平?更根本的是,以人类作为衡量标准本身就是一个假设。我们有必要反思,为什么模仿人类智能是唯一的标准?
微软和OpenAI之间关系的恶化,也反映了这种定义上的混乱。据《华尔街日报》报道,这两家公司目前正陷入激烈的谈判,部分原因在于他们无法就AGI的含义达成一致,尽管他们已经签署了一项价值超过130亿美元的合同,其中包含了AGI这一术语。
AGI定义的历史演变
AGI这个术语的起源并不清晰。虽然John McCarthy及其同事在1956年达特茅斯学院的会议上创造了“人工智能”这个术语,但AGI出现得要晚得多。物理学家Mark Gubrud在1997年首次使用了这个术语,但计算机科学家Shane Legg和AI研究员Ben Goertzel在2002年左右独立地重新提出了这个概念。Goertzel和Cassio Pennachin编辑的2007年出版的图书普及了现代AGI的使用。
早期的AI研究人员设想的系统可以匹配人类在所有领域的能力。1965年,AI先驱Herbert A. Simon预测,“机器将在20年内能够完成人类可以做的任何工作。”但随着机器人技术落后于计算技术的进步,AGI的定义范围缩小了。目标从“做人类能做的一切”转变为“做大多数具有经济价值的任务”,再到今天更加模糊的标准。
几十年以来,图灵测试一直是衡量机器智能的事实标准。如果一台计算机可以通过文本对话,欺骗人类法官,使其认为它是人类,那么该测试就认为它已经实现了某种程度的人类智能。但图灵测试已经过时了。现代语言模型可以通过一些有限的测试,但这并不是因为它们像人类一样“思考”,而是因为它们非常擅长创造听起来很像人类的输出。
目前AGI定义的现状表明,这个概念已经变得多么分散。OpenAI的章程将AGI定义为“在大多数具有经济价值的工作中,胜过人类的高度自主系统”,这种定义像利润指标一样,依赖于经济进步来代替衡量认知能力。Meta的Mark Zuckerberg表示,他对AGI没有“一句简洁的定义”。OpenAI的CEO Sam Altman认为,他的公司现在知道如何构建“我们传统上理解的”AGI。与此同时,据2023年《大西洋月刊》的报道,OpenAI前首席科学家Ilya Sutskever将AGI视为某种近乎神秘的事物,他会带领员工在公司会议上高呼“感受AGI!”,将这个概念视为一种精神追求,而不是一个技术里程碑。
Anthropic的CEO Dario Amodei对AGI的术语本身持怀疑态度。在他2024年10月的文章《Machines of Loving Grace》中,Amodei写道,他认为“AGI是一个不精确的术语,带有很多科幻色彩和炒作。”相反,他更喜欢“强大的AI”或“专家级科学与工程”这样的术语,他认为这些术语可以更好地捕捉AI的能力,而没有相关的炒作。当Amodei描述其他人可能称之为AGI的事物时,他将其描述为一个“比大多数相关领域的诺贝尔奖获得者更聪明”的AI系统,该系统可以自主地完成需要数小时、数天或数周才能完成的任务——本质上是“一个数据中心里的天才之国”。他对AGI术语的抵制,为AGI定义的混乱增加了一层含义:我们不仅对AGI的含义没有达成一致,而且一些领先的AI开发人员完全拒绝这个术语。
谷歌DeepMind在2024年7月提出了一个框架,将AGI的性能分为五个级别:新兴、有能力、专家、 virtuoso 和超人。DeepMind的研究人员认为,当时不存在超出“新兴AGI”的级别。根据他们的系统,当今最强大的LLM和模拟推理模型仍然属于“新兴AGI”——在各种任务中,与非熟练工人水平相当或略好。
但是,这个框架有其批评者。非营利组织AI Now Institute的首席AI科学家Heidy Khlaaf表示,她认为AGI的概念定义不清,无法进行“严格的科学评估”。事实上,由于存在如此多不同的定义,有人可能会认为AGI这个术语在技术上已经变得毫无意义。
当哲学遇到合同法
微软-OpenAI的争端说明了,当哲学思辨变成法律义务时会发生什么。当两家公司签署合作协议时,他们加入了一个条款,规定当OpenAI实现AGI时,它可以限制微软对未来技术的访问。《华尔街日报》报道称,OpenAI的高管认为他们即将宣布AGI,而微软CEO Satya Nadella在2月份的Dwarkesh Patel播客中,称使用AGI作为一个自我声明的里程碑是“毫无意义的基准黑客行为”。
我们前面提到的1000亿美元利润门槛,将商业上的成功与认知能力混为一谈,就好像一个系统产生收入的能力,可以说明它是否像人类一样“思考”、“推理”或“理解”世界。
根据你的定义,我们可能已经拥有AGI,或者它可能在物理上无法实现。如果你将AGI定义为“AI在大多数任务中的表现优于大多数人”,那么当前的语言模型可能会满足某些类型工作的标准(哪些任务,哪些人,什么是“更好”?),但是对于这是否属实,远未达成共识。这并没有说明“超级智能”这个更加模糊的概念——这是另一个模糊的术语,指的是一种假想的、像神一样的智力,它远远超出了人类的认知范围,就像AGI一样,它拒绝任何可靠的定义或基准。
鉴于这种定义上的混乱,研究人员试图创建客观的基准来衡量AGI的进展,但是这些尝试也暴露出了一系列问题。
为什么基准测试总是失败
寻找更好的AGI基准测试,产生了一些有趣的图灵测试替代方案。Abstraction and Reasoning Corpus (ARC-AGI) 由François Chollet在2019年推出,它测试AI系统是否可以解决需要深入和新颖的分析推理的新型视觉难题。
Chollet在2024年8月表示:“几乎所有当前的AI基准测试都可以通过纯粹的记忆来解决。”目前AI基准测试的一个主要问题,源于数据污染——当测试问题最终出现在训练数据中时,模型似乎表现良好,而没有真正“理解”其基本概念。大型语言模型是模仿大师,模仿在训练数据中发现的模式,但并非总是能为问题创造新的解决方案。
但是,即使是像ARC-AGI这样的复杂基准测试,也面临一个根本问题:它们仍然试图将智能降低到一个分数。虽然改进的基准测试对于在科学框架中衡量经验进展至关重要,但智能不是你可以衡量的单一事物,例如身高或体重——它是不同环境中以不同方式表现出来的复杂能力集合。事实上,我们甚至没有对人类智能的完整功能定义,因此,通过任何单一基准评分来定义人工智能,可能只能捕捉到完整图景的一小部分。
调查显示:AGI可能不会很快到来
毫无疑问,AI领域在包括计算机视觉、蛋白质折叠和翻译在内的许多领域,都取得了迅速而切实的进展。对进展感到兴奋是合理的,但重要的是不要过早地夸大AI模型的能力。
尽管业内一些人士大肆宣传,但许多AI研究人员仍然怀疑AGI会在短期内出现。人工智能促进协会(AAAI)在2025年3月对AI研究人员进行的一项调查发现,大多数(76%)参与调查的研究人员认为,扩展当前的方法“不太可能”或“非常不可能”实现AGI。
但是,应该对这种专家预测持保留态度,因为研究人员一直对AI能力提升的快速步伐感到惊讶。Grace等人对2778名AI研究人员进行的2024年调查发现,在2022-2023年的进展感到惊讶之后,专家们大大缩短了他们对AI里程碑的时间表。AI在所有可能的任务中都可能胜过人类的中位数预测向前跃升了13年,从2022年调查中的2060年到2023年的2047年。这种低估的模式在多个基准测试中都很明显,许多研究人员对AI能力的预测在几个月内就被证明是错误的。
然而,随着技术格局的变化,AI的目标也在不断地后退。最近,随着越来越多的研究继续揭示模拟推理模型的局限性,业内一些专家已经慢慢地退出了即将推出AGI的说法。例如,AI播客主持人Dwarkesh Patel最近发表了一篇博客文章,认为开发AGI仍然面临着主要的瓶颈,尤其是在持续学习方面,并预测我们距离AI能够像人类一样无缝地在工作中学习还有七年的时间。
为什么定义很重要
我们在上面看到的,研究人员的共识、公司术语的定义和企业言论之间的脱节,产生了实际的影响。当政策制定者基于炒作而不是科学证据,而表现得好像AGI即将到来时,他们就有可能做出与现实不符的决定。当公司围绕未定义的术语制定合同时,他们可能会埋下法律上的定时炸弹。
围绕AGI的定义混乱不仅仅是哲学上的争论。公司利用即将推出AGI的承诺来吸引投资、人才和客户。政府会根据AGI的时间表来制定政策。公众对AI对就业和社会的影响,形成了可能不切实际的期望,而这些期望是基于这些模糊的概念。
没有明确的定义,我们就无法就AI的错误应用、监管或发展重点进行有意义的对话。最终,我们只是在自说自话,乐观主义者和悲观主义者使用相同的词语,却表达着截然不同的含义。
面对这种挑战,有些人可能会试图完全放弃正式的定义,转而采取“当我看到它时,我就知道了”的方法来定义AGI——这与最高法院大法官Potter Stewart关于淫秽的著名言论相呼应。这种主观标准可能感觉有用,但对于合同、监管或科学进步而言,它毫无用处。
也许现在是时候超越AGI这个术语了。与其追逐一个定义不清的目标,不如专注于具体的能力:这个系统能否在没有大量重新训练的情况下学习新任务?它能解释其输出吗?它能产生不会伤害或误导人们的安全输出吗?这些问题比任何AGI的推测都能告诉我们更多关于AI进展的信息。最有效的方法可能是将AI的进展,视为一个没有具体成就阈值的多维光谱。但是,要绘制该光谱,就需要新的基准,以及对“智能”的坚定、经验性的定义,而这仍然是难以捉摸的。