在人工智能(AI)领域,人工通用智能(AGI)无疑是最受瞩目,同时也最具争议的概念之一。AGI旨在创造一种能够像人类一样,在各种任务中表现出通用智能的AI系统。然而,对于AGI的定义,业界至今没有达成共识,这不仅引发了学术界的讨论,也导致了商业合作中的实际问题。微软和OpenAI之间关于AGI定义的分歧,就是一个典型的例子。本文将深入探讨AGI定义之争的根源、影响以及可能的解决路径。
AGI:一个“薛定谔的猫”?
AGI的概念最早可以追溯到20世纪50年代,当时的AI研究先驱们设想创造一种能够像人类一样思考和学习的机器。然而,随着AI技术的不断发展,人们对AGI的期望也在不断变化。最初,AGI被定义为一种能够执行任何人类可以执行的任务的AI系统。但随着时间的推移,这个定义变得越来越模糊。
如今,AGI的定义多种多样,甚至相互矛盾。有人认为,AGI是一种能够通过图灵测试的AI系统;有人认为,AGI是一种能够完成大多数经济上有价值的工作的AI系统;还有人认为,AGI是一种能够像人类一样进行创造性思考和解决问题的AI系统。这种定义上的混乱,使得AGI的衡量和实现变得异常困难。
微软与OpenAI的分歧
微软和OpenAI是AI领域的两大巨头,双方在AGI的定义上也存在明显分歧。据《华尔街日报》报道,两家公司在AGI的定义上无法达成一致,导致双方的合作关系出现裂痕。微软CEO萨蒂亚·纳德拉认为,将AGI定义为一个可以自我宣告的里程碑是“毫无意义的”。而OpenAI的一些高管则认为,他们已经接近实现AGI。
这种分歧不仅影响了双方的商业合作,也反映了整个AI行业在AGI定义上的困境。如果连行业内的顶尖公司都无法就AGI的定义达成一致,那么整个行业又该如何朝着共同的目标前进呢?
AGI定义的演变
AGI的定义并非一成不变,而是随着AI技术的发展不断演变。在AI研究的早期,人们对AGI的期望非常高,认为AGI很快就会实现。然而,随着时间的推移,人们逐渐意识到实现AGI的难度远超预期。这导致AGI的定义逐渐收缩,从“执行任何人类可以执行的任务”变为“执行大多数经济上有价值的任务”。
图灵测试曾长期被视为衡量机器智能的标准。如果一台机器能够通过文本对话,让一个人类评委无法分辨其是机器还是人类,那么这台机器就被认为具有了一定的智能。但如今,图灵测试的局限性日益显现。现代语言模型可以通过生成高度逼真的人类语言输出来通过图灵测试,但这并不意味着它们真的像人类一样思考。
多方观点:AGI定义大乱斗
OpenAI在其章程中将AGI定义为“在大多数经济上有价值的工作中,胜过人类的高度自主系统”。这个定义强调了AGI的经济价值,但忽略了AGI的认知能力。Meta的CEO马克·扎克伯格表示,他对AGI没有一个“精辟的定义”。OpenAI的CEO萨姆·奥特曼则认为,他的公司现在知道如何构建“我们传统上理解的”AGI。而OpenAI的前首席科学家伊利亚·萨茨克维则将AGI视为一种近乎神秘的事物,他甚至会在公司会议上带领员工高呼“感受AGI!”
Anthropic的CEO达里奥·阿莫代伊对AGI这个术语持怀疑态度。他认为“AGI是一个不精确的术语,带有很多科幻色彩和炒作”。他更喜欢使用“强大的AI”或“专家级科学与工程”这样的术语,认为这些术语更能准确地描述AI的能力,而不会引起过多的炒作。阿莫代伊将AGI描述为一种“比大多数相关领域的诺贝尔奖获得者更聪明”的AI系统,它可以自主完成需要数小时、数天或数周才能完成的任务,本质上是“一个数据中心里的天才之国”。
谷歌DeepMind在2024年7月提出了一个AGI性能框架,将AGI分为五个等级:新兴、胜任、专家、大师和超人。DeepMind的研究人员认为,当时不存在超过“新兴AGI”的水平。根据他们的系统,目前最强大的LLM和模拟推理模型仍然属于“新兴AGI”,相当于或略高于一个在各种任务中不熟练的人类。
非营利组织AI Now Institute的首席AI科学家海蒂·赫拉夫认为,AGI的概念定义不清,无法进行严格的科学评估。事实上,由于存在如此多不同的定义,AGI这个术语可能已经失去了技术意义。
基准测试的困境
为了更客观地衡量AGI的进展,研究人员试图创建客观的基准测试。然而,这些尝试也暴露出了一系列问题。
抽象和推理语料库(ARC-AGI)是弗朗索瓦·肖莱在2019年提出的一个基准测试,旨在测试AI系统解决需要深度和新颖分析推理的视觉难题的能力。
肖莱认为,目前几乎所有的AI基准测试都可以通过纯粹的记忆来解决。AI基准测试的一个主要问题是数据污染——当测试问题最终出现在训练数据中时,模型似乎表现良好,但实际上并没有真正“理解”潜在的概念。大型语言模型是模仿大师,它们模仿训练数据中发现的模式,但并不总是能原创性地解决问题。
即使是像ARC-AGI这样复杂的基准测试也面临一个根本问题:它们仍然试图将智能简化为一个分数。虽然改进的基准测试对于在科学框架内衡量经验进展至关重要,但智能并不是一个可以像身高或体重一样测量的单一事物——它是一个复杂的能力集合,在不同的环境中表现出不同的形式。事实上,我们甚至没有一个完整的人类智能功能定义,因此,通过任何单一的基准分数来定义人工智能,很可能只能捕捉到整个图景的一小部分。
专家观点:AGI可能不会很快到来
尽管行业内的一些人对AGI的到来充满期待,但许多AI研究人员仍然持怀疑态度。美国人工智能协会(AAAI)在2025年3月进行的一项调查发现,大多数(76%)参与调查的研究人员认为,扩大当前的方法“不太可能”或“非常不可能”实现AGI。
然而,这些专家预测应该谨慎对待,因为研究人员一直对AI能力提升的快速步伐感到惊讶。格蕾丝等人对2778名AI研究人员进行的一项调查发现,在2022-2023年的进展让他们感到惊讶之后,专家们大大缩短了他们对AI里程碑的时间表。AI在所有可能的任务中都能超越人类的中位数预测向前跳了13年,从2022年调查中的2060年到2023年的2047年。这种低估的模式在多个基准测试中都很明显,许多研究人员对AI能力的预测在几个月内就被证明是错误的。
然而,随着技术格局的变化,AI的目标也在不断后退。最近,随着越来越多的研究继续揭示模拟推理模型的局限性,行业内的一些专家已经开始慢慢放弃对AGI即将到来的说法。例如,AI播客主持人Dwarkesh Patel最近发表了一篇博客文章,认为开发AGI仍然面临重大瓶颈,特别是在持续学习方面,并预测我们距离AI能够像人类一样无缝地在工作中学习还有七年的时间。
定义的重要性
研究人员的共识、公司的术语定义和企业的言论之间的脱节,会产生实际影响。当政策制定者根据炒作而非科学证据,认为AGI即将到来时,他们可能会做出与现实不符的决定。当公司围绕未定义的术语签订合同时,他们可能会埋下法律定时炸弹。
围绕AGI的定义混乱不仅仅是哲学上的争论。公司利用即将到来的AGI的承诺来吸引投资、人才和客户。政府根据AGI的时间表制定政策。公众根据这些模糊的概念,对AI对就业和社会的影响形成可能不切实际的期望。
没有明确的定义,我们就无法就AI的误用、监管或发展重点进行有意义的对话。我们最终会各说各话,乐观主义者和悲观主义者使用相同的词语来表达根本不同的含义。
面对这种挑战,有些人可能会想完全放弃正式的定义,转而采取“我看到它就知道了”的方法来定义AGI——这与最高法院大法官波特·斯图尔特的著名引言“我看到它就知道了”类似。这种主观标准可能感觉有用,但它对合同、监管或科学进展毫无用处。
也许是时候超越AGI这个术语了。与其追逐一个定义不清、不断向未来 receding 的目标,不如专注于具体的能力:这个系统能否在没有大量重新训练的情况下学习新任务?它能否解释其输出?它能否产生不伤害或误导人们的安全输出?这些问题比任何AGI的 speculation 都能告诉我们更多关于AI进展的信息。最有效的方法可能是将AI的进展视为一个没有特定成就阈值的多维光谱。但要绘制这个光谱,需要新的基准,以及一个仍然难以捉摸的“智能”的坚定、经验主义的定义。