AGI定义之争:微软与OpenAI的分歧背后,AI的未来走向何方?

3

人工智能(AI)领域近年来取得了显著进展,但对于“人工通用智能”(AGI)的定义,行业内却始终存在争议。这种定义上的模糊不仅引发了学术界的讨论,更直接影响了科技公司的发展战略和合作关系,甚至引发了微软和OpenAI之间的分歧。本文将深入探讨AGI定义的演变、争议焦点以及对行业未来的影响。

AGI:一个“薛定谔的猫”?

AGI,顾名思义,是指具备广泛通用智能的人工智能系统,能够像人类一样在不同领域执行各种任务。然而,如何精确定义“人类水平”的智能,以及如何衡量AI系统是否达到了这一水平,成为了一个难题。有人认为,AGI应该具备在经济上产生显著价值的能力,例如创造1000亿美元的利润。但这种以经济效益为标准的定义方式,显然过于武断,难以全面反映AGI的本质特征。

An image of a faceless human silhouette (chest up) with exposed microchip contacts and circuitry erupting from its open head. This visual metaphor explores transhumanism, AI integration, or the erosion of organic thought in the digital age. The stark contrast between the biological silhouette and mechanical components highlights themes of technological dependence or posthuman evolution. Ideal for articles on neural implants, futurism, or the ethics of human augmentation.

更普遍的观点认为,AGI应该具备广泛的泛化能力,能够将已学到的概念应用于新的场景,并在没有经过专门训练的情况下,完成各种不同的任务。然而,这种定义同样面临挑战:如何界定“人类水平”?是专家级水平,还是普通人水平?AGI是否需要具备执行手术、撰写诗歌、修理汽车引擎和证明数学定理等多种能力?更根本的问题在于,为什么一定要以人类智能作为衡量标准?

AGI定义的历史演变

“人工通用智能”一词的起源并不明确。尽管“人工智能”的概念早在1956年就已提出,但AGI的概念出现得要晚得多。物理学家马克·古布鲁德在1997年首次使用了“AGI”一词,但真正让这个概念流行起来的是计算机科学家谢恩·莱格和AI研究员本·格策尔,他们在2002年左右重新提出了这个概念,并在2007年出版的著作中对其进行了推广。

最初,AI研究人员希望创造出能够在所有领域都达到人类水平的系统。1965年,AI先驱赫伯特·A·西蒙预测,20年内,机器将能够完成人类可以做的任何工作。但随着机器人技术的发展滞后于计算技术的进步,AGI的定义逐渐收窄。目标从“完成人类可以做的任何事情”转变为“完成最具经济价值的任务”,再到如今更加模糊的标准。

长期以来,图灵测试一直是衡量机器智能的标准。如果一台计算机能够通过文本对话,让一名人类评委相信它是人类,那么它就被认为达到了人类智能的水平。然而,图灵测试也逐渐显示出其局限性。现代语言模型可以通过图灵测试,但这并不意味着它们像人类一样“思考”,而是因为它们能够生成高度逼真的人类语言输出。

AGI定义的混乱现状

目前,AGI的定义呈现出碎片化的状态。OpenAI的章程将AGI定义为“在大多数具有经济价值的工作中,超越人类的高度自主系统”。Meta的CEO马克·扎克伯格表示,他对AGI的概念没有一个“简洁明了的定义”。OpenAI的CEO萨姆·奥特曼认为,他的公司现在知道如何构建“我们传统上理解的”AGI。与此同时,OpenAI前首席科学家伊利亚·萨茨克维尔则将AGI视为一种近乎神秘的事物。

Anthropic的CEO达里奥·阿莫代伊对AGI的术语持怀疑态度。他认为“AGI是一个不精确的术语,带有大量的科幻色彩和炒作”。他更喜欢“强大的AI”或“专家级科学与工程”等术语,认为这些术语更能准确地描述AI的能力,而不会引起过多的炒作。阿莫代伊将AGI描述为“在大多数相关领域比诺贝尔奖获得者更聪明”,并且可以自主完成需要数小时、数天或数周才能完成的任务——本质上是“一个数据中心里的天才国家”。

Dario Amodei, co-founder and chief executive officer of Anthropic, during the Bloomberg Technology Summit in San Francisco, California, US, on Thursday, May 9, 2024.

谷歌DeepMind试图通过一套分为五个等级的AGI性能框架来规范这种混乱局面:新兴、胜任、专家、大师和超人。DeepMind的研究人员认为,当时还没有达到“新兴AGI”以上的水平。根据他们的体系,目前最强大的LLM和模拟推理模型仍然属于“新兴AGI”——在各种任务中与非熟练人类相当或略好。

然而,这个框架也受到了批评。AI Now Institute的首席AI科学家海蒂·赫拉夫认为,AGI的概念过于模糊,无法进行“严格的科学评估”。事实上,由于存在如此多不同的定义,AGI这个术语可能已经失去了技术意义。

AGI定义之争的现实影响

微软和OpenAI之间的纠纷表明,当哲学思辨变成法律义务时,会发生什么。当两家公司签署合作协议时,他们 включили 一项条款,规定当OpenAI实现AGI时,它可以限制微软对未来技术的访问。据《华尔街日报》报道,OpenAI的执行官们认为他们即将宣布AGI,而微软的CEO萨蒂亚·纳德拉则称,将AGI作为一个自我宣告的里程碑的想法是“无稽之谈”。

Sam Altman speaks onstage during The New York Times Dealbook Summit 2024 at Jazz at Lincoln Center on December 04, 2024 in New York City.

根据不同的定义,我们可能已经拥有AGI,或者它可能在物理上无法实现。如果你将AGI定义为“在大多数任务中表现优于大多数人类的AI”,那么当前的语言模型可能已经达到了某些类型工作的标准,但这远未达成普遍共识。更不用说“超智能”这个更加模糊的概念了——这是另一个模糊的术语,指的是一种假设的、神一般的智力,远远超出了人类的认知能力,就像AGI一样,它拒绝任何明确的定义或基准。

AGI基准测试的困境

为了更客观地衡量AGI的进展,研究人员一直在努力创建更好的基准测试。抽象和推理语料库(ARC-AGI)是弗朗索瓦·肖莱在2019年引入的,旨在测试AI系统解决需要深度和新颖分析推理的视觉谜题的能力。

肖莱认为,目前AI基准测试的一个主要问题是数据污染——测试问题最终出现在训练数据中,模型可以在没有真正“理解”底层概念的情况下表现良好。大型语言模型是模仿大师,模仿训练数据中发现的模式,但并不总是原创地解决问题。

然而,即使是像ARC-AGI这样复杂的基准测试也面临着一个根本问题:它们仍然试图将智能简化为一个分数。虽然改进的基准测试对于在科学框架中衡量经验进展至关重要,但智能并不是你可以衡量的单一事物,比如身高或体重——它是一个复杂的能力集合,在不同的环境中表现出不同的形式。事实上,我们甚至没有人类智能的完整功能定义,因此,通过任何单一基准分数来定义人工智能,很可能只能捕捉到整个图景的一小部分。

AGI的未来展望

尽管行业内对AGI的定义和实现路径存在诸多争议,但不可否认的是,人工智能领域在计算机视觉、蛋白质折叠和翻译等众多领域取得了显著进展。在为这些进步感到兴奋的同时,我们也需要保持理性,避免过早地夸大AI模型的能力。

近期,由人工智能促进协会(AAAI)进行的一项调查显示,大多数AI研究人员仍然对AGI在短期内实现持怀疑态度。调查显示,76%的研究人员认为,扩大目前的方法“不太可能”或“非常不可能”实现AGI。

不过,专家们的预测也需要谨慎对待,因为AI能力的发展速度常常超出人们的预期。一项研究发现,在2022年至2023年期间,由于对AI进展感到惊讶,专家们大大缩短了他们对AI里程碑的时间表。在2022年的调查中,AI在所有可能的任务中超越人类的中位数预测时间是2060年,而在2023年的调查中,这一时间提前到了2047年。

随着技术的发展,AI的目标也在不断变化。随着越来越多的研究揭示了模拟推理模型的局限性,一些行业专家已经开始逐渐放弃对AGI即将到来的说法。例如,AI播客主持人德瓦克什·帕特尔最近发表了一篇博客文章,认为AGI的发展仍然面临着重大瓶颈,特别是在持续学习方面,并预测我们仍然需要七年时间才能实现AI像人类一样无缝地在工作中学习。

明确AGI定义的重要性

研究人员的共识、公司术语定义和企业言论之间的脱节,会产生实际影响。如果政策制定者基于炒作而非科学证据,认为AGI即将到来,他们可能会做出与现实不符的决策。当公司围绕未定义的术语签订合同时,可能会埋下法律隐患。

围绕AGI的定义混乱不仅仅是哲学上的争论。公司利用对AGI即将到来的承诺来吸引投资、人才和客户。政府根据AGI的时间表制定政策。公众根据这些模糊的概念,对AI对工作和社会的影响形成可能不切实际的期望。

没有明确的定义,我们就无法就AI的错误应用、监管或发展重点进行有意义的对话。我们最终会各说各话,乐观主义者和悲观主义者使用相同的词语来表达截然不同的含义。

面对这种挑战,有些人可能会放弃正式的定义,转而采取“我看到它时就会知道它”的方法来定义AGI。这种主观标准可能感觉有用,但它对合同、监管或科学进步毫无用处。

或许,现在是时候超越AGI这个术语了。与其追逐一个不断退缩的、定义不清的目标,不如专注于具体的能力:这个系统是否可以在没有大量重新训练的情况下学习新任务?它是否可以解释其输出?它是否可以产生不损害或误导人们的安全输出?这些问题比任何关于AGI的推测都能告诉我们更多关于AI进展的信息。最有效的方法可能是将AI的进展视为一个多维的谱系,没有特定的成就阈值。但要绘制出这个谱系,就需要新的基准测试——以及对“智能”的坚定、经验性的定义,而这仍然难以捉摸。