AGI终极难题:定义之争如何撕裂AI巨头?

0

人工通用智能(AGI):定义之争与未来之路

AGI:一个难以捉摸的概念

在人工智能领域,人工通用智能(AGI)无疑是最令人向往,同时也最具争议的目标之一。AGI,顾名思义,是指在多个领域都能像人类一样,甚至超越人类表现的人工智能系统。然而,对于AGI的具体定义,业界至今没有达成共识。这种定义上的模糊性,不仅引发了学术界的争论,也直接影响了AI技术的研发方向和商业合作。

微软和OpenAI之间的分歧就是一个典型的例子。据报道,这两家公司在AGI的定义上存在严重分歧,甚至影响了他们之间价值数十亿美元的合作。OpenAI似乎认为,当AI系统能够创造1000亿美元的利润时,就达到了AGI的标准。而微软则对此表示质疑,认为这种以经济效益为基准的定义过于武断。

这种对AGI定义的困惑并非个例。事实上,如果你询问100位AI专家,你可能会得到100个不同的答案。有人认为,AGI应该具备广泛的通用性,能够将知识和技能应用于全新的场景,就像人类一样。也有人认为,AGI应该在所有经济活动中超越人类。还有人将AGI视为一种几乎带有神秘色彩的存在,认为它代表着AI的最高境界。

An image of a faceless human silhouette (chest up) with exposed microchip contacts and circuitry erupting from its open head. This visual metaphor explores transhumanism, AI integration, or the erosion of organic thought in the digital age. The stark contrast between the biological silhouette and mechanical components highlights themes of technological dependence or posthuman evolution. Ideal for articles on neural implants, futurism, or the ethics of human augmentation.

AGI定义的演变

AGI的概念并非一蹴而就。早在1956年,约翰·麦卡锡等人首次提出了“人工智能”的概念。但AGI的出现要晚得多。物理学家马克·古布鲁德在1997年首次使用了“AGI”一词,之后,计算机科学家肖恩·莱格和AI研究员本·格策尔在2002年左右重新引入了这个概念。直到2007年,随着格策尔和卡西奥·佩纳钦编辑的一本书的出版,AGI才开始被广泛使用。

早期的AI研究者设想,未来的AI系统能够像人类一样,在所有领域都具备强大的能力。1965年,AI先驱赫伯特·西蒙甚至预测,在20年内,机器将能够完成人类可以做的任何工作。然而,由于机器人技术的发展滞后于计算技术的进步,AGI的定义逐渐收窄。人们对AGI的期望也从“完成人类可以做的所有事情”变成了“完成大多数具有经济价值的任务”,最终演变成今天这种更加模糊的标准。

曾经,图灵测试是衡量机器智能的标准。如果一台计算机可以通过文本对话,成功地欺骗人类评委,让其认为自己是人类,那么它就被认为实现了某种程度的人类智能。但如今,图灵测试已经显得过时。现代语言模型可以通过生成听起来很像人类的输出,从而通过某些版本的测试,但这并不意味着它们真的像人类一样“思考”。

AGI定义的多种视角

OpenAI对AGI的定义是“在大多数具有经济价值的工作中,胜过人类的高度自主系统”。这种定义方式将经济进步作为衡量认知能力的替代指标。Meta的CEO马克·扎克伯格坦言,他对AGI没有一个“简洁明了的定义”。OpenAI的CEO萨姆·奥特曼则认为,他的公司现在知道如何构建“我们传统上理解的”AGI。而前OpenAI首席科学家伊利亚·萨茨克维则将AGI视为一种带有神秘色彩的存在。

Dario Amodei, co-founder and chief executive officer of Anthropic, during the Bloomberg Technology Summit in San Francisco, California, US, on Thursday, May 9, 2024.

Anthropic的CEO达里奥·阿莫代伊对AGI这个术语持更加怀疑的态度。他认为“AGI是一个不精确的术语,它积累了大量的科幻色彩和炒作”。他更喜欢使用“强大的AI”或“专家级科学与工程”等术语,认为这些术语能够更好地描述AI的能力,而不会引起过度的炒作。当阿莫代伊描述其他人可能称之为AGI的东西时,他将其定义为“在大多数相关领域比诺贝尔奖获得者更聪明”,并且可以自主完成需要数小时、数天或数周才能完成的任务的AI系统——本质上是“一个数据中心里的天才之国”。他对AGI术语的抵制,为定义的混乱增添了又一层含义:我们不仅对AGI的含义没有达成一致,而且一些领先的AI开发人员完全拒绝使用该术语。

谷歌DeepMind试图通过提出一个包含五个AGI性能级别的框架来规范这种混乱局面:新兴、胜任、专家、大师和超人。DeepMind的研究人员认为,当时不存在“新兴AGI”以上的任何级别。在他们的系统中,当今最强大的LLM和模拟推理模型仍然属于“新兴AGI”——在各种任务中,与非熟练的人类相当或略好。

AGI:哲学与法律的交汇

微软和OpenAI之间的争端表明,当哲学思辨变成法律义务时,会发生什么。当这两家公司签署合作协议时,他们 включили 条款,规定当OpenAI实现AGI时,它可以限制微软访问未来的技术。据《华尔街日报》报道,OpenAI的高管认为他们即将宣布实现AGI,而微软CEO萨蒂亚·纳德拉则称使用AGI作为自我声明的里程碑的想法是“无稽之谈”。

据报道,OpenAI设定的1000亿美元利润门槛,将商业成功与认知能力混为一谈,仿佛一个系统产生收入的能力,能够说明它是否像人类一样“思考”、“推理”或“理解”世界。

Sam Altman speaks onstage during The New York Times Dealbook Summit 2024 at Jazz at Lincoln Center on December 04, 2024 in New York City.

根据你所持的定义,我们可能已经拥有了AGI,或者实现AGI在物理上是不可能的。如果你将AGI定义为“在大多数任务中,AI的表现优于大多数人类”,那么当前的语言模型可能在某些类型的工作中达到了这个标准(哪些任务,哪些人类,“更好”是什么意思?),但对于这是否属实,远未达成共识。更不用说更加模糊的“超级智能”概念了——这是另一个模糊的术语,指的是一种假想的、像神一样的智力,它远远超出了人类的认知范围,就像AGI一样,它拒绝任何明确的定义或基准。

基准测试的局限性

为了更准确地衡量AGI的进展,研究人员一直在努力创建客观的基准。抽象和推理语料库(ARC-AGI)就是其中一个例子。ARC-AGI由弗朗索瓦·肖莱在2019年推出,旨在测试AI系统解决需要深入分析推理的新型视觉难题的能力。

肖莱认为,当前AI基准测试的一个主要问题是数据污染——当测试问题最终出现在训练数据中时,模型可能会在没有真正“理解”底层概念的情况下,表现得很好。大型语言模型是模仿大师,它们模仿训练数据中的模式,但并不总是能原创性地解决问题。

但即使是像ARC-AGI这样复杂的基准测试,也面临着一个根本问题:它们仍然试图将智能简化为一个分数。虽然改进的基准测试对于在科学框架中衡量经验进展至关重要,但智能并不是你可以衡量的单一事物,就像身高或体重一样——它是一个复杂的能力集合,在不同的环境中以不同的方式表现出来。事实上,我们甚至没有人类智能的完整功能定义,因此通过任何单一基准分数来定义人工智能,可能只能捕捉到完整图景的一小部分。

专家观点:AGI可能不会很快到来

毫无疑问,人工智能领域在计算机视觉、蛋白质折叠和翻译等众多领域取得了快速、切实的进展。对进步的兴奋是合理的,但重要的是不要过早地夸大AI模型的能力。

尽管业内一些人士大肆宣传,但许多AI研究人员仍然怀疑AGI是否指日可待。人工智能促进协会(AAAI)对AI研究人员进行的一项调查发现,大多数(76%)参与调查的研究人员认为,扩展当前的方法“不太可能”或“非常不可能”实现AGI。

然而,这种专家预测应该谨慎对待,因为研究人员一直对AI能力提升的快速步伐感到惊讶。格蕾丝等人对2778名AI研究人员进行的一项调查发现,在2022-2023年的进展让他们感到惊讶之后,专家们大大缩短了他们对AI里程碑的时间表。AI在所有可能的任务中都可能胜过人类的中位数预测向前跃升了13年,从2022年调查中的2060年到2023年的2047年。这种低估的模式在多个基准中都很明显,许多研究人员对AI能力的预测在几个月内就被证明是错误的。

然而,随着技术格局的变化,AI的目标也在不断后退。最近,随着越来越多的研究不断揭示模拟推理模型的局限性,业内一些专家已经慢慢地退出了对AGI即将到来的说法。例如,AI播客主持人德瓦克什·帕特尔最近发表了一篇博客文章,认为开发AGI仍然面临着主要的瓶颈,特别是在持续学习方面,并预测我们仍然需要七年时间才能实现AI像人类一样无缝地在工作中学习。

AGI定义的重要性

研究人员共识、公司术语定义和企业言论之间的脱节,会产生实际影响。当政策制定者基于炒作而非科学证据,认为AGI即将到来时,他们可能会做出与现实不符的决策。当公司围绕未定义的术语签订合同时,他们可能会制造法律上的定时炸弹。

围绕AGI的定义混乱不仅仅是哲学上的争论。公司利用即将到来的AGI的承诺来吸引投资、人才和客户。政府根据AGI的时间表来制定政策。公众根据这些模糊的概念,对AI对就业和社会的影响形成可能不切实际的期望。

没有明确的定义,我们就无法就AI的错误应用、监管或发展重点进行有意义的对话。我们最终会各说各话,乐观主义者和悲观主义者使用相同的词语来表达根本不同的含义。

面对这种挑战,有些人可能会试图完全放弃正式的定义,转而采取“我看到它就会知道”的方法来定义AGI——这与最高法院大法官波特·斯图尔特关于淫秽的著名引言相呼应。这种主观标准可能感觉有用,但它对合同、监管或科学进步毫无用处。

也许现在是时候超越AGI这个术语了。与其追逐一个不断退缩到未来的定义不清的目标,我们不如专注于具体的能力:这个系统能否在没有大量再训练的情况下学习新任务?它能否解释其输出?它能否产生不会伤害或误导人们的安全输出?这些问题比任何关于AGI的猜测都能告诉我们更多关于AI进展的信息。最有效的前进方式可能是将AI的进展视为一个没有特定成就阈值的多维频谱。但要绘制该频谱,就需要新的基准,而这些基准目前尚不存在——以及对“智能”的坚定、经验主义的定义,而这仍然难以捉摸。