人工通用智能(AGI):定义之争与未来走向
在人工智能领域,人工通用智能(AGI)一直是一个备受关注但又极具争议的概念。AGI 究竟是什么?它何时能够实现?这些问题不仅困扰着学术界,也引发了科技巨头之间的分歧。本文将深入探讨 AGI 的定义之争、历史演变以及未来发展趋势,并分析其对人工智能领域乃至整个社会的影响。
AGI 的定义困境
AGI,即 Artificial General Intelligence,指的是一种具有广泛认知能力的人工智能,能够在各种不同的任务中表现出与人类相当甚至超越人类的智能水平。然而,对于 AGI 的具体定义,业界始终没有达成共识。正如 Google DeepMind 在一篇论文中所指出的,如果向 100 位 AI 专家询问 AGI 的定义,你可能会得到 100 个略有不同的答案。
这种定义上的模糊性带来了诸多问题。首先,它使得衡量 AGI 的进展变得困难。如果连 AGI 的标准都无法确定,又如何判断一个 AI 系统是否达到了 AGI 的水平呢?其次,定义上的分歧也影响了 AI 技术的研发方向和投资决策。不同的公司和研究机构可能会根据自己对 AGI 的理解,制定不同的发展战略,从而导致资源分散和重复投入。
微软和 OpenAI 之间的争端就是一个典型的例子。据《华尔街日报》报道,这两家公司在 AGI 的定义上存在严重分歧,这直接影响了它们之间的合作关系。OpenAI 认为自己已经接近实现 AGI,并希望限制微软对未来技术的访问;而微软则认为 AGI 的概念过于模糊,不应作为合同条款。
AGI 的历史演变:目标不断转移
AGI 的概念并非一蹴而就,而是在 AI 技术发展的过程中不断演变的。最初,AI 研究人员的目标是开发能够像人类一样思考和行动的机器。1965 年,AI 先驱 Herbert A. Simon 甚至预测,在 20 年内,机器将能够完成人类所能做的任何工作。然而,随着时间的推移,人们逐渐意识到实现这一目标的难度远超预期。
由于机器人技术的发展滞后于计算能力的进步,AGI 的定义开始收缩。最初的目标是“做任何人类能做的事情”,后来变成了“做大多数经济上有价值的任务”,最终变成了今天更为模糊的标准。这种目标转移反映了 AI 领域在发展过程中遇到的挑战和挫折。
在很长一段时间里,图灵测试被视为衡量机器智能的标准。如果一台计算机能够通过文本对话欺骗人类法官,使其相信自己是人类,那么它就被认为实现了某种程度的类人智能。然而,现代语言模型已经能够通过图灵测试的一些有限版本,但这并不意味着它们真的像人类一样思考,而仅仅是因为它们擅长生成听起来很像人类的输出。
现有的 AGI 定义:经济价值与认知能力之争
目前,对于 AGI 的定义主要有两种观点:一种是强调经济价值,另一种是强调认知能力。OpenAI 的章程将 AGI 定义为“在大多数经济上有价值的工作中表现优于人类的高度自主系统”,这种定义将经济进步作为衡量认知能力的替代品。Meta 的 CEO 马克·扎克伯格则表示,他对 AGI 没有一个“一句话的简洁定义”。OpenAI 的 CEO Sam Altman 认为,他的公司现在知道如何构建“我们传统上理解的”AGI。
Anthropic 的 CEO Dario Amodei 对 AGI 的术语本身持怀疑态度。他认为“AGI 是一个不精确的术语,已经积累了很多科幻色彩和炒作”。他更喜欢“强大的 AI”或“专家级科学与工程”等术语,认为这些术语更好地捕捉了能力,而没有相关的炒作。Amodei 将 AGI 描述为“在大多数相关领域比诺贝尔奖获得者更聪明的 AI 系统”,可以自主完成需要数小时、数天或数周才能完成的任务——本质上是“一个数据中心里的天才之国”。
Google DeepMind 提出了一个更为系统的 AGI 性能框架,将 AGI 分为五个级别:新兴、胜任、专家、大师和超人。DeepMind 的研究人员认为,当时不存在超出“新兴 AGI”的级别。在他们的系统中,当今最强大的 LLM 和模拟推理模型仍然属于“新兴 AGI”——在各种任务中与非熟练的人类相当或略好。
AGI 的客观基准:挑战与局限
为了更客观地衡量 AGI 的进展,研究人员一直在寻找更好的基准测试方法。抽象和推理语料库(ARC-AGI)就是其中一种尝试。ARC-AGI 由 François Chollet 于 2019 年推出,旨在测试 AI 系统解决需要深度分析推理的新型视觉难题的能力。
Chollet 认为,目前大多数 AI 基准测试都可以通过纯粹的记忆来解决。AI 基准测试的一个主要问题是数据污染——当测试问题最终出现在训练数据中时,模型可以看起来表现良好,而没有真正“理解”底层概念。大型语言模型是模仿大师,模仿训练数据中发现的模式,但并不总是原创地解决问题。
然而,即使是像 ARC-AGI 这样复杂的基准测试也面临一个根本问题:它们仍然试图将智能简化为一个分数。虽然改进的基准对于在科学框架中衡量经验进展至关重要,但智能并不是你可以衡量的单一事物,比如身高或体重——它是在不同背景下以不同方式表现出来的各种能力的复杂组合。事实上,我们甚至没有人类智能的完整功能定义,因此通过任何单一基准分数来定义人工智能可能只能捕捉到整个图景的一小部分。
AGI 的未来:研究人员的观点
尽管 AI 领域取得了显著进展,但许多 AI 研究人员仍然对 AGI 即将到来的说法持怀疑态度。2025 年 3 月,人工智能促进协会(AAAI)对 AI 研究人员进行的一项调查发现,大多数(76%)参与调查的研究人员认为,扩展当前方法“不太可能”或“非常不可能”实现 AGI。
然而,这些专家预测应谨慎对待,因为研究人员一直对 AI 能力的快速发展感到惊讶。Grace 等人对 2,778 名 AI 研究人员进行的一项 2024 年调查发现,在对 2022-2023 年的进展感到惊讶后,专家们大大缩短了他们对 AI 里程碑的时间表。AI 在每个可能的任务中都可能超越人类的中位数预测向前跃升了 13 年,从 2022 年调查中的 2060 年到 2023 年的 2047 年。这种低估模式在多个基准中都很明显,许多研究人员对 AI 能力的预测在几个月内就被证明是错误的。
随着技术格局的变化,AI 的目标不断后退。最近,随着更多研究继续揭示模拟推理模型的局限性,该行业的一些专家已经慢慢放弃了即将实现 AGI 的说法。例如,AI 播客主持人 Dwarkesh Patel 最近发表了一篇博客文章,认为开发 AGI 仍然面临重大瓶颈,尤其是在持续学习方面,并预测我们距离 AI 能够像人类一样无缝地在工作中学习还有七年时间。
为什么 AGI 的定义如此重要?
AGI 定义上的混乱不仅仅是哲学上的争论,它对政策制定、合同签订和公众预期都产生了实际影响。当政策制定者基于炒作而非科学证据来判断 AGI 即将到来时,他们可能会做出与现实不符的决策。当公司围绕未定义的术语签订合同时,他们可能会埋下法律隐患。
没有明确的定义,我们就无法就 AI 的误用、监管或发展重点进行有意义的对话。我们最终会各说各话,乐观主义者和悲观主义者使用相同的词语来表达根本不同的含义。
面对这种挑战,有些人可能会放弃正式定义,转而采取“我看到它就会知道”的方法来定义 AGI。但这种主观标准对于合同、监管或科学进步毫无用处。
也许现在是时候超越 AGI 这个术语了。与其追求一个不断退缩的定义不清的目标,不如关注具体的能力:这个系统能否在没有大量再训练的情况下学习新任务?它能否解释其输出?它能否产生不伤害或误导人们的安全输出?这些问题比任何 AGI 的猜测都能告诉我们更多关于 AI 进展的信息。最有效的方法可能是将 AI 的进展视为一个没有特定成就阈值的多维谱。但要绘制这个谱,就需要尚不存在的新基准——以及对“智能”的坚定、经验主义的定义,而这仍然难以捉摸。
总结
AGI 的定义之争反映了人工智能领域在发展过程中面临的复杂性和挑战。虽然 AGI 的概念充满吸引力,但对其内涵和实现路径的理解仍然存在诸多分歧。为了推动 AI 技术的健康发展,我们需要超越模糊的 AGI 概念,关注具体的能力指标,并建立更加客观和全面的评估体系。只有这样,我们才能更好地把握 AI 的发展趋势,并为未来的 AI 治理做好准备。
未来的 AI 发展道路可能并非一条通往 AGI 的直线,而是一个多维度的能力提升过程。我们需要关注 AI 在各个领域的实际应用,并根据实际情况调整发展战略。同时,我们也需要加强对 AI 伦理和社会影响的研究,确保 AI 技术能够为人类带来福祉,而不是风险。
AGI 仍然是一个遥远的目标,但我们对 AI 的探索和研究不会停止。通过不断的技术创新和理论探索,我们有望在未来的某一天揭开智能的奥秘,并创造出真正具有通用智能的机器。在此之前,我们需要保持理性、务实的态度,避免过度炒作和盲目乐观,共同推动 AI 领域的健康发展。