AGI定义之辩:AI行业面临的挑战与未来方向

1

在人工智能(AI)领域,人工通用智能(AGI)的概念一直是讨论和研究的核心。然而,对于AGI的定义,业界始终未能达成共识,这不仅引发了学术上的争论,也导致了商业合作中的摩擦。本文将深入探讨AGI定义的困境,分析其对AI发展、监管和应用的影响,并提出一些可能的解决方案。

AGI:一个定义模糊的概念

近年来,科技行业的一些领军人物不断预言AGI即将到来,但对于AGI的具体含义,各方观点不一。正如Google DeepMind在一篇论文中所指出的,如果向100位AI专家询问AGI的定义,可能会得到100个相关但不同的答案。这种定义上的混乱不仅仅是学术问题,它直接影响着AI系统的开发、监管以及我们对AI的认知。

我个人倾向于从传统的角度定义AGI,强调其“通用性”,即AI模型能够广泛地将概念应用于新的场景,并在多个领域执行不熟悉的任务,而无需专门的训练。然而,这种定义立刻引出了关于“人类水平”性能的棘手问题。我们指的是专家级人类?普通人类?以及在哪些任务上?AGI是否应该能够在手术、诗歌创作、汽车引擎维修和数学定理证明等方面都达到人类专家的水平?(有哪个人类能够做到所有这些?)更根本的是,关注人类对等本身就是一个假设;值得追问的是,为什么模仿人类智能是必要的衡量标准。

微软和OpenAI之间的关系恶化就是一个因AGI定义不明确而产生问题的最新例子。据《华尔街日报》报道,这两家公司目前陷入激烈的谈判,部分原因在于它们无法就AGI的含义达成一致——尽管它们已经签署了一项价值超过130亿美元的合同,其中包含了AGI这一术语。

AGI定义的历史演变

“人工通用智能”一词的起源并不清晰。虽然约翰·麦卡锡和同事于1956年在达特茅斯学院创造了“人工智能”一词,但AGI出现得要晚得多。物理学家马克·古布鲁德于1997年首次使用该术语,但计算机科学家谢恩·莱格和AI研究员本·格策尔在2002年左右独立地重新引入了该术语,现代用法因格策尔和卡西奥·佩纳钦编辑的2007年出版的图书而普及。

早期的AI研究人员设想的系统能够在所有领域匹配人类的能力。1965年,AI先驱赫伯特·A·西蒙预测,“机器将在20年内能够做人能做的任何工作。”但随着机器人技术落后于计算技术的进步,定义范围缩小。目标逐渐从“做人类能做的一切”转变为“做大多数具有经济价值的任务”,再到今天更加模糊的标准。

An assistant of inventor Captain Richards works on the robot the Captain has invented, which speaks, answers questions, shakes hands, tells the time and sits down when it's told to.

几十年来,图灵测试一直是衡量机器智能的默认基准。如果一台计算机可以通过文本对话欺骗人类评委,使其认为它是人类,那么该测试假定它已经实现了类似人类的智能。但图灵测试已经显示出它的局限性。现代语言模型可以通过一些有限版本的测试,不是因为它们像人类一样“思考”,而是因为它们非常擅长创建高度可信的听起来像人类的输出。

当前AGI定义的现状揭示了这个概念已经变得多么分散。OpenAI的章程AGI定义为“在大多数具有经济价值的工作中胜过人类的高度自主系统”——这个定义像利润指标一样,依赖于经济进步来代替以具体方式衡量认知。马克·扎克伯格告诉The Verge,他对这个概念没有“一句话的精辟定义”。OpenAI首席执行官萨姆·奥特曼认为他的公司现在知道如何构建AGI“正如我们传统上理解的那样”。与此同时,据2023年大西洋月刊的报道,前OpenAI首席科学家伊利亚·萨茨克维尔将AGI视为几乎是神秘的东西——他会带领员工在公司会议上高呼“感受AGI!”,将这个概念视为更像是一种精神追求,而不是一个技术里程碑。

Dario Amodei, co-founder and chief executive officer of Anthropic, during the Bloomberg Technology Summit in San Francisco, California, US, on Thursday, May 9, 2024.

Anthropic首席执行官达里奥·阿莫代伊对该术语本身持更为怀疑的立场。在他2024年10月的文章“爱之机械”中,阿莫代伊写道,他发现“AGI是一个不精确的术语,已经收集了很多科幻包袱和炒作。”相反,他更喜欢“强大的AI”或“专家级科学与工程”等术语,他认为这些术语更好地捕捉了能力,而没有相关的炒作。当阿莫代伊描述其他人可能称之为AGI的东西时,他将其描述为一个“比大多数相关领域的诺贝尔奖获得者更聪明”的AI系统,该系统可以自主完成需要数小时、数天或数周才能完成的任务——本质上是“数据中心里的天才之国”。他对AGI术语的抵制为定义的混乱增加了另一层:我们不仅对AGI的含义没有达成一致,而且一些领先的AI开发人员完全拒绝这个术语。

或许,为了给这种混乱的局面带来秩序,谷歌DeepMind做出了最为系统的尝试,他们在2024年7月提出了一个框架,将AGI的表现分为五个等级:新兴、胜任、专家、大师和超人。DeepMind的研究人员认为,当时不存在“新兴AGI”以上的任何等级。根据他们的系统,当今最强大的LLM和模拟推理模型仍然有资格成为“新兴AGI”——在各种任务中与非熟练人类相当或略胜一筹。

但这个框架也有其批评者。非营利组织AI Now Institute的首席AI科学家海蒂·克拉夫告诉TechCrunch,她认为AGI的概念定义过于模糊,无法“进行严格的科学评估”。事实上,由于存在如此多不同的定义,人们可能会争辩说,AGI这个术语在技术上已经变得毫无意义。

当哲学遇到合同法

微软-OpenAI的争端表明了当哲学思辨变成法律义务时会发生什么。当两家公司签署合作协议时,他们包含了一个条款,规定当OpenAI实现AGI时,它可以限制微软访问未来技术。据《华尔街日报》报道,OpenAI的高管认为他们即将宣布AGI,而微软首席执行官萨蒂亚·纳德拉在2月份的Dwarkesh Patel播客中使用AGI作为自我声明的里程碑的想法是“毫无意义的基准破解”。

我们前面提到的据报道的1000亿美元利润阈值将商业成功与认知能力混为一谈,就好像一个系统产生收入的能力可以有意义地说明它是否可以像人类一样“思考”、“推理”或“理解”世界。

Sam Altman speaks onstage during The New York Times Dealbook Summit 2024 at Jazz at Lincoln Center on December 04, 2024 in New York City.

根据你的定义,我们可能已经拥有AGI,或者可能在物理上无法实现。如果你将AGI定义为“AI在大多数任务中表现优于大多数人”,那么当前的语言模型可能满足某些类型工作的这一标准(哪些任务,哪些人,什么是“更好”?),但对这是否属实的共识远未达成。这并没有说明“超智能”这个更加模糊的概念——另一个模糊的术语,指的是一种假设的、像神一样的智力,远远超出了人类的认知范围,就像AGI一样,它挑战了任何明确的定义或基准。

鉴于这种定义的混乱,研究人员试图创建客观的基准来衡量AGI的进展,但这些尝试也暴露了它们自身的问题。

为什么基准不断让我们失望

寻找更好的AGI基准已经产生了一些有趣的图灵测试替代方案。抽象和推理语料库(ARC-AGI),由弗朗索瓦·肖莱于2019年推出,测试AI系统是否可以解决需要深入和新颖的分析推理的新型视觉难题。

肖莱在2024年8月告诉Freethink,“几乎所有当前的AI基准都可以纯粹通过记忆来解决。”当前AI基准的一个主要问题源于数据污染——当测试问题最终出现在训练数据中时,模型似乎表现良好,而没有真正“理解”底层的概念。大型语言模型是模仿大师,模仿在训练数据中发现的模式,但并不总是原创问题的解决方案。

但即使是像ARC-AGI这样复杂的基准也面临一个根本问题:它们仍然试图将智能简化为一个分数。虽然改进的基准对于在科学框架中衡量经验进展至关重要,但智能并不是你可以衡量的单一事物,比如身高或体重——它是一个复杂的能力星座,在不同的环境中表现不同。事实上,我们甚至没有人类智能的完整功能定义,因此通过任何单一基准分数定义人工智能可能只能捕捉到完整图景的一小部分。

调查显示:AGI可能不会很快到来

毫无疑问,人工智能领域在许多领域都取得了快速、切实的进展,包括计算机视觉、蛋白质折叠和翻译。对一些进展感到兴奋是合理的,但重要的是不要过早地夸大AI模型的能力。

尽管业内一些人士大肆宣传,但许多AI研究人员仍然怀疑AGI即将在眼前。2025年3月由人工智能促进协会(AAAI)对AI研究人员进行的一项调查发现,参与调查的大多数研究人员(76%)认为,扩大当前的方法“不太可能”或“非常不可能”实现AGI。

然而,这些专家预测应该持保留态度,因为研究人员一直对AI能力进步的快速步伐感到惊讶Grace等人2024年对2778名AI研究人员进行的一项调查发现,在2022-2023年的进展令他们感到惊讶之后,专家们大大缩短了他们对AI里程碑的时间表。AI在所有可能的任务中可能胜过人类的中位数预测提前了13年,从2022年调查中的2060年提前到2023年的2047年。这种低估的模式在多个基准中都很明显,许多研究人员对AI能力的预测在几个月内就被证明是错误的。

然而,随着技术格局的变化,AI的目标也在以恒定的速度后退。最近,随着越来越多的研究继续揭示模拟推理模型的局限性,业内一些专家已经慢慢地从即将到来的AGI的说法中退缩。例如,AI播客主持人Dwarkesh Patel最近发表了一篇博客文章,认为开发AGI仍然面临重大瓶颈,特别是在持续学习方面,并预测我们离AI能够像人类一样无缝地在工作中学习还有七年的时间。

为什么定义很重要

我们在上面看到的,研究人员的共识、公司术语定义和企业言论之间的脱节产生了实际影响。当政策制定者根据炒作而不是科学证据来对待AGI即将到来时,他们可能会做出与现实不符的决定。当公司围绕未定义的术语编写合同时,他们可能会制造法律上的定时炸弹。

围绕AGI的定义混乱不仅仅是哲学上的争论。公司利用即将到来的AGI的承诺来吸引投资、人才和客户。政府根据AGI的时间表制定政策。公众根据这些模糊的概念形成对AI对就业和社会影响的潜在不切实际的期望。

没有明确的定义,我们就无法就AI的误用、监管或发展重点进行有意义的对话。我们最终会各说各话,乐观主义者和悲观主义者使用相同的词语来表示根本不同的事物。

面对这种挑战,有些人可能会试图完全放弃正式定义,转而采用“我看到它就会知道”的方法来定义AGI——呼应最高法院大法官波特·斯图尔特关于淫秽的名言。这种主观标准可能感觉有用,但对于合同、监管或科学进步来说毫无用处。

也许是时候超越AGI这个术语了。与其追逐一个定义不清的目标,这个目标不断地退回到未来,我们不如关注具体的能力:这个系统能否在没有大量再训练的情况下学习新任务?它能否解释其输出?它能否产生不伤害或误导人们的安全输出?这些问题比任何数量的AGI推测都能告诉我们更多关于AI进展的信息。最有效的前进方式可能是将AI的进展视为一个没有具体成就阈值的多维频谱。但要绘制这个频谱,就需要新的基准,而这些基准尚不存在——以及对“智能”的坚定、经验的定义,而这个定义仍然难以捉摸。