2025世界人工智能大会在各界瞩目中盛大开幕。在本次大会上,图灵奖得主、2024年诺贝尔物理学奖获得者,被誉为“深度学习之父”的Geoffrey Hinton发表了主旨演讲。他以77岁的高龄,深入探讨了人工智能的发展历程、语言模型的本质,以及人类与AI在结构上的共通之处。Hinton还特别提到了Deepseek,但他认为这种方式的效率有待提高。
Hinton回顾了过去六十年AI发展历程中的两条主线:一是以推理为核心的“逻辑主义”,另一种是以模拟人类认知为基础的“连接主义”。他认为,语言理解更接近于后者,它并非简单的符号演绎,而是从模糊的信息中提取概念之间的关联。
他回忆起自己在1985年开发的早期小型模型,并认为如今的大语言模型本质上是它的“后代”。尽管现在的模型拥有更深的网络结构和更庞大的参数规模,但其核心机制并未发生根本改变。“语言模型的理解方式,和人类理解语言的方式是相似的。”Hinton如是说。
Hinton强调,一旦大模型具备超越人类的智能,仅仅依靠“关闭”它们并不能解决问题。他警告说:“有人认为,当AI变得足够聪明时,我们可以直接关闭它们,但这并不现实。它们有可能会劝说或操控控制机器的人,阻止他们关闭AI。”他将人类的处境比作“养一只老虎当宠物”,“养老虎的唯一办法是,要么你把它训练得永远不攻击你,要么你直接消灭它。”
为此,Hinton建议全球主要国家或AI大国应建立一个由AI安全机构组成的国际社群,共同研究如何训练高智能AI向善。他强调,这与训练AI变得更聪明的技术是完全不同的。各国可以在自身主权范围内进行研究,然后分享研究成果。虽然目前尚不清楚具体应该怎么做,但这却是人类长期面临的最重要问题,需要所有国家共同合作。
Hinton长期致力于神经网络、机器学习、分类监督学习、机器学习理论、细胞神经网络、信息系统应用、马尔可夫决策过程、神经网络、认知科学等领域的研究。2023年,他从谷歌辞职,并警告称,生成式人工智能系统的商业应用构成了多重威胁。他认为,从长远来看,自主人工智能系统可能会对人类构成严重威胁。
以下是杰弗里·辛顿在2025 WAIC现场演讲的实录:
尊敬的各位同事、各位来宾、各位领导、女士们、先生们,首先,非常感谢大家给我这个机会,能够在此分享我对AI历史与未来的个人观点。在过去的六十多年里,人工智能的发展呈现出两种截然不同的范式和路径。其中一种是逻辑性范式,它在过去一个世纪中占据主导地位。这种范式认为,智能的本质在于推理,通过符号规则对符号表达式进行操作来实现推理,从而帮助我们更好地理解这个世界。另一种范式则以生物为基础,得到了图灵和冯·诺依曼的认同。他们认为,智能的基础是学习,是理解网络中的连接速度,而理解是前提,之后才能进行转化。与这两种理论相对应的是不同类型的AI。符号型AI关注的是数字,以及这些数字如何成为核心关注点,而心理学家则持有完全不同的理论——他们认为数字的意义在于一系列语义学特征,这些特征的存在使其成为独特的标志。
1985年,我创建了一个小型模型,试图将这两种理论结合起来,以此来理解人们对词语的理解方式。我为每个词设置了多个不同的特征,通过记录前一个词的特征,就能预测下一个词是什么。在这个过程中,我没有存储任何句子,而是生成句子并预测下一个词。其中的相关性知识,取决于不同词的语义特征之间的互动方式。
如果有人问我未来三十年将会发生什么,从现有的发展轨迹中,我们可以看到一些明显的趋势。在十年后,可能会有人沿用这种建模模式,但会将其规模大幅扩大,使其成为对自然语言的真实模拟。二十年后,计算语言学家可能会开始接受用特征向量嵌入来表达语义。又过了三十年,谷歌发明了Transformer,OpenAI的研究人员也向人们展示了它的强大能力。因此,我认为如今的大语言模型就是我当年开发的微型语言模型的“后代”。它们使用更多的词作为输入,采用更多层的神经元结构。由于需要处理大量的模糊数字,学习特征之间也建立了更复杂的交互模式。但与我当初做的小模型一样,大语言模型理解语言的方式与人类相似——基本逻辑是将语言转化为特征,再以完美的方式整合这些特征,这正是大语言模型在各个层级所做的工作。因此,我认为大语言模型和人类理解语言的方式是相同的。
用乐高积木来打比方,或许能更好地解释“理解一句话”的含义。符号型AI是将内容转化为清晰的符号,但人类并非以这种方式来理解语言。乐高积木可以拼出任何3D造型,比如小车模型。如果我们将每个词都看作是多维度的乐高积木(可能包含几千个维度),那么语言就成了一种建模工具,可以随时与人沟通,只要给这些“积木”命名——每个“积木”就是一个词。
然而,词和乐高积木之间存在着许多不同之处:词的符号形态可以根据具体情况进行调整,而乐高积木的造型则是固定的;乐高积木的拼接方式是固定的(例如,正方形积木插入正方形孔洞),但在语言中,每个词都仿佛拥有多个“手臂”,需要通过合适的“握手”方式与其他词互动,词的“造型”发生变化,“握手”方式也会随之改变。当一个词的“造型”(即意思)改变时,它与下一个词的“握手”方式就会不同,进而产生新的含义。这就是人脑或神经网络理解语义的根本逻辑,类似于蛋白质通过氨基酸的不同组合形成有意义的结构。
因此,我认为人类理解语言的方式与大语言模型几乎是一致的。人类甚至可能和大语言模型一样产生“幻觉”,因为我们也会创造出一些虚构的表达。
软件中的知识是永恒的。即使存储大型语言模型的硬件被摧毁,只要软件存在,它就可以随时“复活”。但要实现这种“永生”,晶体管需要在高功率下运行,以产生可靠的二进制行为,这个过程成本非常高,并且无法利用硬件中不稳定的类似特性——它们是模拟型的,每次计算的结果都会有所不同。人脑也是模拟型而非数字型的。虽然神经元每次激发的过程都一样,但每个人的神经元连接方式都不同。我无法将自己的神经结构转移到他人的大脑中,这就导致知识在人脑之间的传播效率远低于在硬件中的传播。
软件与硬件无关,因此能够“永生”,并且还具有低功耗的优势——人脑只需要30瓦特就能运转。我们的神经元连接数量达到了数万亿个,无需花费大量的资金来制造完全相同的硬件。但问题在于,模拟模型间的知识转移效率极低,我无法直接将脑中的知识展示给他人。
Deepseek的做法是将大型神经网络的知识转移到小型神经网络中,即“蒸馏”,类似于教师与学生之间的关系:教师将词语在上下文中的关联教给学生,学生通过调整权重来学会表达。但这种方式的效率非常低。一句话通常只包含100个比特的信息,即便全部被理解,每秒最多也只能传递约100个比特。而数字智能之间的知识转移效率极高。同一神经网络软件的多个拷贝在不同的硬件上运行时,可以通过平均化比特的方式来分享知识。如果智能体在现实世界中运行,这种优势会更加明显——它们能够不断加速、拷贝,多个智能体比单个智能体学得更多,并且能够分享权重,这是模拟硬件或软件无法做到的。
生物计算的功耗很低,但知识分享的难度很大。如果能源和计算的成本都很低廉,情况会好很多,但这也让我感到担忧——几乎所有的专家都认为,我们会创造出比人类更智能的AI。人类已经习惯了作为最智能的生物,很难想象AI超越人类的场景。其实我们可以换一个角度来看待这个问题:就像养鸡场的鸡无法理解人类一样,我们创造的AI智能体已经能够帮助我们完成任务。它们能够拷贝自身、评估子目标,并且还会为了生存和完成目标而寻求更多的控制权。
有人认为我们可以在AI变得过强时关闭它们,但这并不现实。它们可能会像成年人操纵三岁孩子一样操纵人类,劝说控制机器的人不要关闭它们。这就好比把老虎当宠物一样,幼虎很可爱,但长大后可能会伤人,而养老虎当宠物通常不是一个好主意。
面对AI,我们只有两个选择:要么训练它永远不伤害人类,要么“消灭”它。但AI在医疗、教育、气候变化、新材料等领域的作用巨大,能够提升所有行业的效率,我们无法消除它——即便一个国家放弃AI,其他国家也不会。因此,如果想要让人类生存下去,就必须找到训练AI不伤害人类的方法。
我个人认为,各国在网络攻击、致命武器、虚假信息操纵等领域的合作难度较大,因为彼此之间的利益和看法存在差异。但在“人类掌控世界”这一目标上,各国是存在共识的:如果有国家找到了防止AI操控世界的方法,一定会愿意与其他国家分享。因此,我建议全球主要国家或AI大国应该建立一个由AI安全机构组成的国际社群,共同研究如何训练高智能AI向善——这与训练AI变得聪明所需要的技术是不同的。各国可以在自身主权范围内进行研究,然后再分享研究成果。尽管目前我们还不知道具体应该怎么做,但这是人类长期面临的最重要问题,并且所有国家都可以在这一领域开展合作。
谢谢大家。