人工通用智能(AGI):定义之争与未来之路
在人工智能领域,人工通用智能(AGI)无疑是最引人关注的概念之一。AGI旨在创造一种能够像人类一样思考、学习和解决问题的智能系统。然而,对于AGI的定义,业界却始终未能达成共识。这种定义上的模糊性,不仅引发了学术界的争论,甚至直接影响了商业合作和政策制定。
AGI:一个难以捉摸的概念
AGI的定义之争由来已久。一方面,AGI被视为人工智能发展的终极目标,代表着机器能够像人类一样在各种任务中表现出色。另一方面,AGI的具体内涵却始终模糊不清。有人认为,AGI应该具备广泛的通用性,能够像人类一样灵活地适应不同的任务和环境;也有人认为,AGI应该在特定领域超越人类专家,解决复杂的问题。
这种定义上的分歧,使得AGI的衡量变得异常困难。如果AGI的目标是达到“人类水平”,那么究竟是专家级人类还是普通人类?AGI需要在哪些任务上达到人类水平?是能够进行复杂的手术,创作优美的诗歌,修理汽车引擎,还是证明数学定理?更重要的是,为什么要以人类智能作为衡量标准?
商业利益与定义之争
AGI的定义之争,不仅仅是学术问题,更与商业利益息息相关。微软和OpenAI之间的合作就是一个典型的例子。据报道,这两家公司因为对AGI的定义存在分歧,导致合作关系紧张。OpenAI认为自己已经接近实现AGI,而微软则对此表示怀疑。这种分歧直接影响了双方在技术共享和未来发展方向上的决策。
一种被提出的定义是,当AI能够创造1000亿美元的利润时,就可以被认为是AGI。这种将商业成功与认知能力划等号的做法,引发了广泛的争议。利润的产生并不一定代表机器具备了真正的思考、推理或理解能力。
AGI的历史与演变
“人工通用智能”一词的起源并不清晰。尽管约翰·麦卡锡和他的同事在1956年达特茅斯学院的会议上创造了“人工智能”一词,但AGI出现得要晚得多。物理学家马克·古布鲁德在1997年首次使用了这个术语,但计算机科学家谢恩·莱格和人工智能研究员本·格策尔在2002年左右独立地重新引入了这个术语,现代用法由格策尔和卡西奥·佩纳钦编辑的2007年出版的图书推广开来。
早期的AI研究人员设想的系统可以在所有领域匹配人类的能力。1965年,人工智能先驱赫伯特·A·西蒙预测,“机器将在20年内能够做人能做的任何工作。”但随着机器人技术落后于计算进步,这一定义变得狭隘。目标随之转移,部分原因是对此不平衡进展的实际回应,从“做人能做的一切”到“做大多数有经济价值的任务”,再到今天更加模糊的标准。
几十年来,图灵测试一直是衡量机器智能的事实标准。如果一台计算机可以通过文本对话欺骗人类评委,让其认为它是人类,那么该测试推测,它已经实现了某种类似于人类智能的东西。但图灵测试已经显示出它的局限性。现代语言模型可以通过一些有限版本的测试,但这并不是因为它们像人类一样“思考”,而是因为它们非常擅长创造高度可信的、听起来像人类的输出。
多元化的AGI定义
当前AGI的定义呈现出多元化的趋势。OpenAI的章程将AGI定义为“在大多数具有经济价值的工作中,胜过人类的高度自主系统”。Meta的CEO马克·扎克伯格承认,他对AGI没有一个“一句话的精辟定义”。OpenAI的CEO萨姆·奥特曼认为,他的公司现在知道如何构建“我们传统理解的”AGI。与此同时,OpenAI前首席科学家伊利亚·萨茨克维则将AGI视为一种近乎神秘的存在。
Anthropic的CEO达里奥·阿莫代伊对AGI这个术语持怀疑态度。他认为AGI是一个“不精确的术语,带有很多科幻色彩和炒作”。他更喜欢使用“强大的AI”或“专家级科学与工程”等术语。阿莫代伊将AGI描述为一种“在大多数相关领域比诺贝尔奖得主更聪明的”AI系统,可以自主完成需要数小时、数天或数周才能完成的任务。
谷歌DeepMind提出了一个更为系统的AGI评估框架,将AGI的性能分为五个级别:新兴、胜任、专家、大师和超人。DeepMind认为,当时还没有超出“新兴AGI”的水平。根据他们的系统,目前最强大的LLM和模拟推理模型仍然属于“新兴AGI”,在各种任务中与未经训练的人类相当或略好。
基准测试的局限性
为了更客观地衡量AGI的进展,研究人员试图创建各种基准测试。然而,这些尝试也暴露出了一些问题。
抽象和推理语料库(ARC-AGI)是一个测试AI系统解决需要深度分析推理的新型视觉难题的基准。ARC-AGI旨在评估AI系统的泛化能力和创造性解决问题的能力。然而,即使是像ARC-AGI这样复杂的基准测试,也面临着一个根本问题:它们仍然试图将智能简化为一个分数。智能是一个复杂的能力集合,在不同的环境中表现出不同的形式。我们甚至没有一个完整的人类智能功能定义,因此,通过任何单一的基准分数来定义人工智能,可能只能捕捉到整体情况的一小部分。
AGI的未来:谨慎乐观
尽管业界对AGI的定义和实现路径存在分歧,但人工智能领域在计算机视觉、蛋白质折叠和翻译等众多领域取得了显著进展是不争的事实。然而,在过早地夸大AI模型的能力之前,保持谨慎的态度至关重要。
一项针对AI研究人员的调查显示,大多数研究人员认为,通过扩展当前的方法不太可能实现AGI。然而,专家预测也应谨慎对待,因为人工智能能力提升的速度常常出人意料。另一项调查发现,由于2022-2023年的进展令人惊讶,专家们大大缩短了他们对人工智能里程碑的时间表。对AI在所有可能的任务中超越人类的中位数预测提前了13年,从2022年调查中的2060年变为2023年的2047年。这种低估的模式在多个基准中都很明显,许多研究人员对AI能力的预测在几个月内就被证明是错误的。
随着技术格局的变化,人工智能的目标不断变化。最近,随着越来越多的研究继续揭示模拟推理模型的局限性,业内一些专家已经开始慢慢放弃对AGI即将到来的说法。例如,AI播客主持人德瓦克什·帕特尔最近发表了一篇博客文章,认为开发AGI仍然面临重大瓶颈,特别是在持续学习方面,并预测我们距离AI能够像人类一样无缝地在工作中学习还有七年的时间。
定义的重要性
研究人员的共识、公司术语定义和企业言论之间的脱节会产生实际影响。当政策制定者基于炒作而非科学证据,认为AGI即将到来时,他们可能会做出与现实不符的决策。当公司围绕未定义的术语签订合同时,他们可能会埋下法律隐患。
围绕AGI的定义混乱不仅仅是哲学上的争论。公司利用对AGI即将到来的承诺来吸引投资、人才和客户。政府根据AGI的时间表制定政策。公众对AI对就业和社会的影响形成了可能不切实际的期望,而这些期望都是基于这些模糊的概念。
没有明确的定义,我们就无法就AI的误用、监管或发展重点进行有意义的对话。最终,我们各说各话,乐观主义者和悲观主义者使用相同的词语来表达截然不同的含义。
面对这种挑战,有些人可能会试图完全放弃正式的定义,转而采取“我看到它就会知道”的方法来定义AGI——这与最高法院大法官波特·斯图尔特关于淫秽的著名引言相呼应。这种主观标准可能感觉有用,但它对合同、监管或科学进步毫无用处。
超越AGI:关注具体能力
与其追求一个定义模糊、不断后退的目标,不如关注AI系统的具体能力:它是否能在没有大量重新训练的情况下学习新任务?它能否解释其输出结果?它能否产生不损害或误导人们的安全输出?这些问题比任何关于AGI的猜测都能更好地告诉我们AI的进展。最有效的方法可能是将AI的进展视为一个没有特定成就阈值的多维谱。但要绘制该谱,需要新的、目前尚不存在的基准——以及对“智能”的坚定、经验性的定义,而这仍然难以捉摸。
结论
AGI的定义之争反映了人工智能发展面临的复杂性和挑战。在追求AGI的道路上,我们需要保持清晰的头脑,避免盲目乐观和炒作。与其纠结于一个难以捉摸的终极目标,不如关注AI系统的具体能力,逐步提升其在各个领域的表现。只有这样,我们才能真正实现人工智能的潜力,为人类社会带来福祉。