人工智能(AI)领域近年来取得了显著进展,但对于“人工通用智能”(AGI)的定义,行业内却始终存在争议。这种定义上的模糊不仅引发了学术界的讨论,更直接影响了科技公司的发展战略和合作关系,甚至引发了微软和OpenAI之间的分歧。本文将深入探讨AGI定义的演变、争议焦点以及对行业未来的影响。
AGI:一个“薛定谔的猫”?
AGI,顾名思义,是指具备广泛通用智能的人工智能系统,能够像人类一样在不同领域执行各种任务。然而,如何精确定义“人类水平”的智能,以及如何衡量AI系统是否达到了这一水平,成为了一个难题。有人认为,AGI应该具备在经济上产生显著价值的能力,例如创造1000亿美元的利润。但这种以经济效益为标准的定义方式,显然过于武断,难以全面反映AGI的本质特征。
更普遍的观点认为,AGI应该具备广泛的泛化能力,能够将已学到的概念应用于新的场景,并在没有经过专门训练的情况下,完成各种不同的任务。然而,这种定义同样面临挑战:如何界定“人类水平”?是专家级水平,还是普通人水平?AGI是否需要具备执行手术、撰写诗歌、修理汽车引擎和证明数学定理等多种能力?更根本的问题在于,为什么一定要以人类智能作为衡量标准?
AGI定义的历史演变
“人工通用智能”一词的起源并不明确。尽管“人工智能”的概念早在1956年就已提出,但AGI的概念出现得要晚得多。物理学家马克·古布鲁德在1997年首次使用了“AGI”一词,但真正让这个概念流行起来的是计算机科学家谢恩·莱格和AI研究员本·格策尔,他们在2002年左右重新提出了这个概念,并在2007年出版的著作中对其进行了推广。
最初,AI研究人员希望创造出能够在所有领域都达到人类水平的系统。1965年,AI先驱赫伯特·A·西蒙预测,20年内,机器将能够完成人类可以做的任何工作。但随着机器人技术的发展滞后于计算技术的进步,AGI的定义逐渐收窄。目标从“完成人类可以做的任何事情”转变为“完成最具经济价值的任务”,再到如今更加模糊的标准。
长期以来,图灵测试一直是衡量机器智能的标准。如果一台计算机能够通过文本对话,让一名人类评委相信它是人类,那么它就被认为达到了人类智能的水平。然而,图灵测试也逐渐显示出其局限性。现代语言模型可以通过图灵测试,但这并不意味着它们像人类一样“思考”,而是因为它们能够生成高度逼真的人类语言输出。
AGI定义的混乱现状
目前,AGI的定义呈现出碎片化的状态。OpenAI的章程将AGI定义为“在大多数具有经济价值的工作中,超越人类的高度自主系统”。Meta的CEO马克·扎克伯格表示,他对AGI的概念没有一个“简洁明了的定义”。OpenAI的CEO萨姆·奥特曼认为,他的公司现在知道如何构建“我们传统上理解的”AGI。与此同时,OpenAI前首席科学家伊利亚·萨茨克维尔则将AGI视为一种近乎神秘的事物。
Anthropic的CEO达里奥·阿莫代伊对AGI的术语持怀疑态度。他认为“AGI是一个不精确的术语,带有大量的科幻色彩和炒作”。他更喜欢“强大的AI”或“专家级科学与工程”等术语,认为这些术语更能准确地描述AI的能力,而不会引起过多的炒作。阿莫代伊将AGI描述为“在大多数相关领域比诺贝尔奖获得者更聪明”,并且可以自主完成需要数小时、数天或数周才能完成的任务——本质上是“一个数据中心里的天才国家”。
谷歌DeepMind试图通过一套分为五个等级的AGI性能框架来规范这种混乱局面:新兴、胜任、专家、大师和超人。DeepMind的研究人员认为,当时还没有达到“新兴AGI”以上的水平。根据他们的体系,目前最强大的LLM和模拟推理模型仍然属于“新兴AGI”——在各种任务中与非熟练人类相当或略好。
然而,这个框架也受到了批评。AI Now Institute的首席AI科学家海蒂·赫拉夫认为,AGI的概念过于模糊,无法进行“严格的科学评估”。事实上,由于存在如此多不同的定义,AGI这个术语可能已经失去了技术意义。
AGI定义之争的现实影响
微软和OpenAI之间的纠纷表明,当哲学思辨变成法律义务时,会发生什么。当两家公司签署合作协议时,他们 включили 一项条款,规定当OpenAI实现AGI时,它可以限制微软对未来技术的访问。据《华尔街日报》报道,OpenAI的执行官们认为他们即将宣布AGI,而微软的CEO萨蒂亚·纳德拉则称,将AGI作为一个自我宣告的里程碑的想法是“无稽之谈”。
根据不同的定义,我们可能已经拥有AGI,或者它可能在物理上无法实现。如果你将AGI定义为“在大多数任务中表现优于大多数人类的AI”,那么当前的语言模型可能已经达到了某些类型工作的标准,但这远未达成普遍共识。更不用说“超智能”这个更加模糊的概念了——这是另一个模糊的术语,指的是一种假设的、神一般的智力,远远超出了人类的认知能力,就像AGI一样,它拒绝任何明确的定义或基准。
AGI基准测试的困境
为了更客观地衡量AGI的进展,研究人员一直在努力创建更好的基准测试。抽象和推理语料库(ARC-AGI)是弗朗索瓦·肖莱在2019年引入的,旨在测试AI系统解决需要深度和新颖分析推理的视觉谜题的能力。
肖莱认为,目前AI基准测试的一个主要问题是数据污染——测试问题最终出现在训练数据中,模型可以在没有真正“理解”底层概念的情况下表现良好。大型语言模型是模仿大师,模仿训练数据中发现的模式,但并不总是原创地解决问题。
然而,即使是像ARC-AGI这样复杂的基准测试也面临着一个根本问题:它们仍然试图将智能简化为一个分数。虽然改进的基准测试对于在科学框架中衡量经验进展至关重要,但智能并不是你可以衡量的单一事物,比如身高或体重——它是一个复杂的能力集合,在不同的环境中表现出不同的形式。事实上,我们甚至没有人类智能的完整功能定义,因此,通过任何单一基准分数来定义人工智能,很可能只能捕捉到整个图景的一小部分。
AGI的未来展望
尽管行业内对AGI的定义和实现路径存在诸多争议,但不可否认的是,人工智能领域在计算机视觉、蛋白质折叠和翻译等众多领域取得了显著进展。在为这些进步感到兴奋的同时,我们也需要保持理性,避免过早地夸大AI模型的能力。
近期,由人工智能促进协会(AAAI)进行的一项调查显示,大多数AI研究人员仍然对AGI在短期内实现持怀疑态度。调查显示,76%的研究人员认为,扩大目前的方法“不太可能”或“非常不可能”实现AGI。
不过,专家们的预测也需要谨慎对待,因为AI能力的发展速度常常超出人们的预期。一项研究发现,在2022年至2023年期间,由于对AI进展感到惊讶,专家们大大缩短了他们对AI里程碑的时间表。在2022年的调查中,AI在所有可能的任务中超越人类的中位数预测时间是2060年,而在2023年的调查中,这一时间提前到了2047年。
随着技术的发展,AI的目标也在不断变化。随着越来越多的研究揭示了模拟推理模型的局限性,一些行业专家已经开始逐渐放弃对AGI即将到来的说法。例如,AI播客主持人德瓦克什·帕特尔最近发表了一篇博客文章,认为AGI的发展仍然面临着重大瓶颈,特别是在持续学习方面,并预测我们仍然需要七年时间才能实现AI像人类一样无缝地在工作中学习。
明确AGI定义的重要性
研究人员的共识、公司术语定义和企业言论之间的脱节,会产生实际影响。如果政策制定者基于炒作而非科学证据,认为AGI即将到来,他们可能会做出与现实不符的决策。当公司围绕未定义的术语签订合同时,可能会埋下法律隐患。
围绕AGI的定义混乱不仅仅是哲学上的争论。公司利用对AGI即将到来的承诺来吸引投资、人才和客户。政府根据AGI的时间表制定政策。公众根据这些模糊的概念,对AI对工作和社会的影响形成可能不切实际的期望。
没有明确的定义,我们就无法就AI的错误应用、监管或发展重点进行有意义的对话。我们最终会各说各话,乐观主义者和悲观主义者使用相同的词语来表达截然不同的含义。
面对这种挑战,有些人可能会放弃正式的定义,转而采取“我看到它时就会知道它”的方法来定义AGI。这种主观标准可能感觉有用,但它对合同、监管或科学进步毫无用处。
或许,现在是时候超越AGI这个术语了。与其追逐一个不断退缩的、定义不清的目标,不如专注于具体的能力:这个系统是否可以在没有大量重新训练的情况下学习新任务?它是否可以解释其输出?它是否可以产生不损害或误导人们的安全输出?这些问题比任何关于AGI的推测都能告诉我们更多关于AI进展的信息。最有效的方法可能是将AI的进展视为一个多维的谱系,没有特定的成就阈值。但要绘制出这个谱系,就需要新的基准测试——以及对“智能”的坚定、经验性的定义,而这仍然难以捉摸。