在人工智能(AI)领域,通用人工智能(AGI)的概念一直备受关注,但其定义却始终模糊不清,甚至成为了微软和OpenAI等科技巨头之间产生分歧的根源。AGI的定义之争,不仅仅是学术上的探讨,更牵扯到商业利益、技术发展方向以及未来的监管政策。
AGI:定义之争的背后
文章指出,AGI的定义缺乏共识,导致在技术发展、监管和公众认知等方面产生混乱。有人认为,AGI应该具备广泛的通用能力,能够像人类一样在多个领域执行任务,而无需针对特定任务进行专门训练。然而,这种定义面临着如何衡量“人类水平”的难题。是专家级人类?还是普通人类?AGI应该在哪些任务上达到人类水平?这些问题都没有明确的答案。
微软和OpenAI之间的分歧,更凸显了AGI定义的重要性。两家公司在合作协议中使用了AGI这一术语,但对于其具体含义却存在分歧。据《华尔街日报》报道,OpenAI认为他们已经接近实现AGI,而微软CEO萨蒂亚·纳德拉则认为将AGI作为一个自我声明的里程碑是“无稽之谈”。
AGI定义的历史演变
AGI的概念起源可以追溯到1997年,由物理学家马克·古布鲁德首次提出。之后,计算机科学家谢恩·莱格和AI研究员本·格策尔在2002年左右重新引入了这个概念。早期的人工智能研究人员设想,AI系统能够在所有领域达到人类水平。然而,由于机器人技术的发展滞后于计算技术的进步,AGI的定义逐渐缩小,从“做人类能做的所有事情”变成了“做最具经济价值的任务”,再到如今更加模糊的标准。
多年来,图灵测试一直是衡量机器智能的标准。如果一台计算机能够通过文本对话让人类 judges 误以为它是人类,那么它就被认为达到了某种程度的人类智能。然而,现代语言模型已经能够在一定程度上通过图灵测试,但这并不是因为它们像人类一样“思考”,而是因为它们能够生成高度逼真的人类语言输出。
AGI定义的现状
目前,AGI的定义非常分散。OpenAI的章程将AGI定义为“在大多数具有经济价值的工作中表现优于人类的高度自主系统”。Meta CEO马克·扎克伯格表示,他对AGI没有“一句话的简洁定义”。OpenAI CEO萨姆·奥特曼认为,他的公司现在知道如何构建“我们传统理解的”AGI。与此同时,前OpenAI首席科学家伊利亚·苏茨克维则将AGI视为一种近乎神秘的事物,他甚至会在公司会议上带领员工高呼“感受AGI!”。
Anthropic的CEO达里奥·阿莫代伊对AGI这个术语持怀疑态度。他认为“AGI是一个不精确的术语,积累了大量的科幻包袱和炒作”。他更喜欢使用“强大的AI”或“专家级科学与工程”等术语。阿莫代伊将AGI描述为一个“比大多数相关领域的诺贝尔奖获得者更聪明”的AI系统,它可以自主完成需要数小时、数天或数周才能完成的任务,本质上是“数据中心里的天才之国”。
谷歌DeepMind在2024年7月提出了一个AGI性能框架,将AGI分为五个级别:新兴、胜任、专家、大师和超人。DeepMind的研究人员认为,当时还没有超出“新兴AGI”的水平。根据他们的系统,目前最强大的LLM和模拟推理模型仍然属于“新兴AGI”,相当于或略高于在各种任务中没有技能的人类。
然而,这个框架也受到了批评。非营利组织AI Now Institute的首席AI科学家海蒂·克拉夫认为,AGI的概念过于模糊,无法进行严格的科学评估。事实上,由于存在如此多的不同定义,AGI这个术语可能已经失去了技术意义。
基准测试的困境
为了更准确地衡量AGI的进展,研究人员尝试创建客观的基准测试,但这些尝试也暴露出了一些问题。
抽象和推理语料库(ARC-AGI)由弗朗索瓦·肖莱在2019年引入,旨在测试AI系统是否能够解决需要深入和新颖分析推理的视觉谜题。
肖莱表示,目前几乎所有的AI基准测试都可以通过纯粹的记忆来解决。AI基准测试的一个主要问题是数据污染——当测试问题最终出现在训练数据中时,模型似乎表现良好,但实际上并没有真正“理解” underlying 的概念。大型语言模型是模仿大师,它们模仿训练数据中发现的模式,但并不总是原创地解决问题。
即使像ARC-AGI这样复杂的基准测试也面临着一个根本问题:它们仍然试图将智能简化为一个分数。虽然改进的基准测试对于在科学框架中衡量经验进展至关重要,但智能并不是一个可以像身高或体重一样测量的单一事物——它是一个复杂的能力组合,在不同的环境中表现不同。事实上,我们甚至没有对人类智能的完整功能定义,因此通过任何单一基准分数来定义人工智能可能只能捕捉到整个图景的一小部分。
专家观点:AGI可能不会很快到来
尽管业内人士大肆宣传,但许多AI研究人员仍然怀疑AGI是否即将到来。美国人工智能协会(AAAI)在2025年3月进行的一项调查发现,大多数(76%)参与调查的研究人员认为,扩大目前的方法“不太可能”或“非常不可能”实现AGI。
然而,这些专家预测应该谨慎对待,因为研究人员一直对AI能力进步的快速步伐感到惊讶。格雷斯等人对2778名AI研究人员进行的一项调查发现,在2022-2023年的进展让他们感到惊讶之后,专家们大大缩短了他们对AI里程碑的时间表。AI在所有可能的任务中都能超越人类的中位数预测提前了13年,从2022年调查中的2060年到2023年的2047年。这种低估模式在多个基准测试中都很明显,许多研究人员对AI能力的预测在几个月内就被证明是错误的。
随着技术格局的变化,AI的目标不断后退。最近,随着越来越多的研究继续揭示模拟推理模型的局限性,业内的一些专家已经开始慢慢放弃对AGI即将到来的说法。例如,AI播客主持人德瓦克什·帕特尔最近发表了一篇博文,认为开发AGI仍然面临着重大的瓶颈,特别是在持续学习方面,并预测我们距离AI能够像人类一样无缝地在工作中学习还有七年的时间。
AGI定义的意义
研究人员的共识、公司术语定义和企业言论之间的脱节产生了实际影响。当决策者基于炒作而非科学证据行事,就好像AGI即将到来一样,他们就有可能做出与现实不符的决策。当公司围绕未定义的术语起草合同时,他们可能会制造法律定时炸弹。
围绕AGI的定义混乱不仅仅是哲学上的空谈。公司利用即将到来的AGI的承诺来吸引投资、人才和客户。政府根据AGI的时间表制定政策。公众对AI对工作和社会的影响形成了潜在的不切实际的期望。
没有明确的定义,我们就无法就AI的滥用、监管或发展重点进行有意义的对话。我们最终会各说各话,乐观主义者和悲观主义者使用相同的词语来表达根本不同的事物。
面对这种挑战,有些人可能会试图完全放弃正式的定义,转而采用“我看到它就会知道它”的方法来定义AGI——这与最高法院大法官波特·斯图尔特关于淫秽的著名引言相呼应。这种主观标准可能感觉有用,但它对合同、监管或科学进步毫无用处。
也许现在是时候超越AGI这个术语了。与其追逐一个定义不清、不断向未来退去的的目标,不如专注于具体的能力:这个系统能否在没有大量重新训练的情况下学习新任务?它能否解释其输出?它能否产生不会伤害或误导人们的安全输出?这些问题比任何AGI的猜测都能告诉我们更多关于AI进展的信息。最有效的方法可能是将AI的进展视为一个没有特定成就阈值的多维频谱。但要绘制这个频谱,需要新的基准测试,而这些基准测试尚不存在,而且需要对“智能”进行坚定而经验的定义,而这仍然难以捉摸。