人工通用智能(AGI):定义之争与未来之路
AGI:一个难以捉摸的概念
在人工智能领域,人工通用智能(AGI)无疑是最令人向往,同时也最具争议的目标之一。AGI,顾名思义,是指在多个领域都能像人类一样,甚至超越人类表现的人工智能系统。然而,对于AGI的具体定义,业界至今没有达成共识。这种定义上的模糊性,不仅引发了学术界的争论,也直接影响了AI技术的研发方向和商业合作。
微软和OpenAI之间的分歧就是一个典型的例子。据报道,这两家公司在AGI的定义上存在严重分歧,甚至影响了他们之间价值数十亿美元的合作。OpenAI似乎认为,当AI系统能够创造1000亿美元的利润时,就达到了AGI的标准。而微软则对此表示质疑,认为这种以经济效益为基准的定义过于武断。
这种对AGI定义的困惑并非个例。事实上,如果你询问100位AI专家,你可能会得到100个不同的答案。有人认为,AGI应该具备广泛的通用性,能够将知识和技能应用于全新的场景,就像人类一样。也有人认为,AGI应该在所有经济活动中超越人类。还有人将AGI视为一种几乎带有神秘色彩的存在,认为它代表着AI的最高境界。
AGI定义的演变
AGI的概念并非一蹴而就。早在1956年,约翰·麦卡锡等人首次提出了“人工智能”的概念。但AGI的出现要晚得多。物理学家马克·古布鲁德在1997年首次使用了“AGI”一词,之后,计算机科学家肖恩·莱格和AI研究员本·格策尔在2002年左右重新引入了这个概念。直到2007年,随着格策尔和卡西奥·佩纳钦编辑的一本书的出版,AGI才开始被广泛使用。
早期的AI研究者设想,未来的AI系统能够像人类一样,在所有领域都具备强大的能力。1965年,AI先驱赫伯特·西蒙甚至预测,在20年内,机器将能够完成人类可以做的任何工作。然而,由于机器人技术的发展滞后于计算技术的进步,AGI的定义逐渐收窄。人们对AGI的期望也从“完成人类可以做的所有事情”变成了“完成大多数具有经济价值的任务”,最终演变成今天这种更加模糊的标准。
曾经,图灵测试是衡量机器智能的标准。如果一台计算机可以通过文本对话,成功地欺骗人类评委,让其认为自己是人类,那么它就被认为实现了某种程度的人类智能。但如今,图灵测试已经显得过时。现代语言模型可以通过生成听起来很像人类的输出,从而通过某些版本的测试,但这并不意味着它们真的像人类一样“思考”。
AGI定义的多种视角
OpenAI对AGI的定义是“在大多数具有经济价值的工作中,胜过人类的高度自主系统”。这种定义方式将经济进步作为衡量认知能力的替代指标。Meta的CEO马克·扎克伯格坦言,他对AGI没有一个“简洁明了的定义”。OpenAI的CEO萨姆·奥特曼则认为,他的公司现在知道如何构建“我们传统上理解的”AGI。而前OpenAI首席科学家伊利亚·萨茨克维则将AGI视为一种带有神秘色彩的存在。
Anthropic的CEO达里奥·阿莫代伊对AGI这个术语持更加怀疑的态度。他认为“AGI是一个不精确的术语,它积累了大量的科幻色彩和炒作”。他更喜欢使用“强大的AI”或“专家级科学与工程”等术语,认为这些术语能够更好地描述AI的能力,而不会引起过度的炒作。当阿莫代伊描述其他人可能称之为AGI的东西时,他将其定义为“在大多数相关领域比诺贝尔奖获得者更聪明”,并且可以自主完成需要数小时、数天或数周才能完成的任务的AI系统——本质上是“一个数据中心里的天才之国”。他对AGI术语的抵制,为定义的混乱增添了又一层含义:我们不仅对AGI的含义没有达成一致,而且一些领先的AI开发人员完全拒绝使用该术语。
谷歌DeepMind试图通过提出一个包含五个AGI性能级别的框架来规范这种混乱局面:新兴、胜任、专家、大师和超人。DeepMind的研究人员认为,当时不存在“新兴AGI”以上的任何级别。在他们的系统中,当今最强大的LLM和模拟推理模型仍然属于“新兴AGI”——在各种任务中,与非熟练的人类相当或略好。
AGI:哲学与法律的交汇
微软和OpenAI之间的争端表明,当哲学思辨变成法律义务时,会发生什么。当这两家公司签署合作协议时,他们 включили 条款,规定当OpenAI实现AGI时,它可以限制微软访问未来的技术。据《华尔街日报》报道,OpenAI的高管认为他们即将宣布实现AGI,而微软CEO萨蒂亚·纳德拉则称使用AGI作为自我声明的里程碑的想法是“无稽之谈”。
据报道,OpenAI设定的1000亿美元利润门槛,将商业成功与认知能力混为一谈,仿佛一个系统产生收入的能力,能够说明它是否像人类一样“思考”、“推理”或“理解”世界。
根据你所持的定义,我们可能已经拥有了AGI,或者实现AGI在物理上是不可能的。如果你将AGI定义为“在大多数任务中,AI的表现优于大多数人类”,那么当前的语言模型可能在某些类型的工作中达到了这个标准(哪些任务,哪些人类,“更好”是什么意思?),但对于这是否属实,远未达成共识。更不用说更加模糊的“超级智能”概念了——这是另一个模糊的术语,指的是一种假想的、像神一样的智力,它远远超出了人类的认知范围,就像AGI一样,它拒绝任何明确的定义或基准。
基准测试的局限性
为了更准确地衡量AGI的进展,研究人员一直在努力创建客观的基准。抽象和推理语料库(ARC-AGI)就是其中一个例子。ARC-AGI由弗朗索瓦·肖莱在2019年推出,旨在测试AI系统解决需要深入分析推理的新型视觉难题的能力。
肖莱认为,当前AI基准测试的一个主要问题是数据污染——当测试问题最终出现在训练数据中时,模型可能会在没有真正“理解”底层概念的情况下,表现得很好。大型语言模型是模仿大师,它们模仿训练数据中的模式,但并不总是能原创性地解决问题。
但即使是像ARC-AGI这样复杂的基准测试,也面临着一个根本问题:它们仍然试图将智能简化为一个分数。虽然改进的基准测试对于在科学框架中衡量经验进展至关重要,但智能并不是你可以衡量的单一事物,就像身高或体重一样——它是一个复杂的能力集合,在不同的环境中以不同的方式表现出来。事实上,我们甚至没有人类智能的完整功能定义,因此通过任何单一基准分数来定义人工智能,可能只能捕捉到完整图景的一小部分。
专家观点:AGI可能不会很快到来
毫无疑问,人工智能领域在计算机视觉、蛋白质折叠和翻译等众多领域取得了快速、切实的进展。对进步的兴奋是合理的,但重要的是不要过早地夸大AI模型的能力。
尽管业内一些人士大肆宣传,但许多AI研究人员仍然怀疑AGI是否指日可待。人工智能促进协会(AAAI)对AI研究人员进行的一项调查发现,大多数(76%)参与调查的研究人员认为,扩展当前的方法“不太可能”或“非常不可能”实现AGI。
然而,这种专家预测应该谨慎对待,因为研究人员一直对AI能力提升的快速步伐感到惊讶。格蕾丝等人对2778名AI研究人员进行的一项调查发现,在2022-2023年的进展让他们感到惊讶之后,专家们大大缩短了他们对AI里程碑的时间表。AI在所有可能的任务中都可能胜过人类的中位数预测向前跃升了13年,从2022年调查中的2060年到2023年的2047年。这种低估的模式在多个基准中都很明显,许多研究人员对AI能力的预测在几个月内就被证明是错误的。
然而,随着技术格局的变化,AI的目标也在不断后退。最近,随着越来越多的研究不断揭示模拟推理模型的局限性,业内一些专家已经慢慢地退出了对AGI即将到来的说法。例如,AI播客主持人德瓦克什·帕特尔最近发表了一篇博客文章,认为开发AGI仍然面临着主要的瓶颈,特别是在持续学习方面,并预测我们仍然需要七年时间才能实现AI像人类一样无缝地在工作中学习。
AGI定义的重要性
研究人员共识、公司术语定义和企业言论之间的脱节,会产生实际影响。当政策制定者基于炒作而非科学证据,认为AGI即将到来时,他们可能会做出与现实不符的决策。当公司围绕未定义的术语签订合同时,他们可能会制造法律上的定时炸弹。
围绕AGI的定义混乱不仅仅是哲学上的争论。公司利用即将到来的AGI的承诺来吸引投资、人才和客户。政府根据AGI的时间表来制定政策。公众根据这些模糊的概念,对AI对就业和社会的影响形成可能不切实际的期望。
没有明确的定义,我们就无法就AI的错误应用、监管或发展重点进行有意义的对话。我们最终会各说各话,乐观主义者和悲观主义者使用相同的词语来表达根本不同的含义。
面对这种挑战,有些人可能会试图完全放弃正式的定义,转而采取“我看到它就会知道”的方法来定义AGI——这与最高法院大法官波特·斯图尔特关于淫秽的著名引言相呼应。这种主观标准可能感觉有用,但它对合同、监管或科学进步毫无用处。
也许现在是时候超越AGI这个术语了。与其追逐一个不断退缩到未来的定义不清的目标,我们不如专注于具体的能力:这个系统能否在没有大量再训练的情况下学习新任务?它能否解释其输出?它能否产生不会伤害或误导人们的安全输出?这些问题比任何关于AGI的猜测都能告诉我们更多关于AI进展的信息。最有效的前进方式可能是将AI的进展视为一个没有特定成就阈值的多维频谱。但要绘制该频谱,就需要新的基准,而这些基准目前尚不存在——以及对“智能”的坚定、经验主义的定义,而这仍然难以捉摸。