人工智能领域最近的一项突破性研究揭示了人类思维与新型AI系统之间令人意外的相似性。麻省理工学院(MIT)的麦戈文脑研究所科学家发现,新一代被称为"推理模型"的大型语言模型(LLMs)在解决复杂问题时的思考方式与人类高度相似,特别是在"思考成本"方面表现出惊人的一致性。
这一发现发表在《美国国家科学院院刊》(PNAS)上,由脑与认知科学副教授、麦戈文研究所研究员伊芙琳·费多伦科(Evelina Fedorenko)领导的研究团队完成。研究结果挑战了我们对人工智能工作原理的传统理解,并为开发更接近人类思维方式的AI系统提供了重要线索。
从语言模型到推理模型的进化
大型语言模型如ChatGPT等已经能够快速撰写文章或制定菜单,但在过去,这些模型很容易被难倒。这些依赖语言模式响应用户查询的系统,在数学问题和复杂推理方面表现不佳。然而,最近这些模型的能力得到了显著提升。
新一代被称为"推理模型"的LLMs被专门训练来解决复杂问题。与人类一样,这些模型需要时间来思考问题——而值得注意的是,MIT的研究人员发现,需要推理模型进行最多处理的问题,恰恰是人类需要深思熟虑的相同类型的问题。
"构建这些模型的人并不关心它们是否像人类一样思考,"费多伦科解释道,"他们只希望系统能在各种条件下稳定运行并产生正确答案。"这种收敛现象确实相当引人注目。
推理模型的工作原理
与许多形式的人工智能一样,新型推理模型是人工神经网络:当给定数据和需要解决的问题时,这些计算工具学习如何处理信息。人工神经网络在许多大脑神经网络擅长的任务上已经非常成功——在某些情况下,神经科学家发现表现最佳的模型确实与大脑在信息处理方面共享某些共同点。
"直到最近,我仍然是那些说'这些模型在感知和语言方面确实很擅长,但我们还需要很长时间才能拥有能够进行推理的神经网络模型'的人之一,"费多伦科说,"然后这些大型推理模型出现了,它们在许多思维任务上表现得更好,比如解决数学问题和编写计算机代码片段。"
费多伦科实验室的K·丽莎·杨ICoN中心研究员、博士后安德烈亚·格雷戈尔·德·瓦尔达(Andrea Gregor de Varda)解释说,推理模型逐步解决问题。"在某个时候,人们意识到模型需要有更多空间来执行解决复杂问题所需的实际计算,"他说,"如果你让模型将问题分解成各个部分,性能就会变得强得多。"
强化学习与逐步推理
为了鼓励模型通过逐步推理解决复杂问题,工程师可以使用强化学习。在训练过程中,模型因正确答案而获得奖励,因错误答案而受到惩罚。"模型自己探索问题空间,"德·瓦尔达说,"那些带来积极奖励的行为会被强化,从而使它们更频繁地产生正确的解决方案。"
以这种方式训练的模型比其前辈更有可能在面对推理任务时得出与人类相同的答案。它们的逐步解决问题的确意味着推理模型可能比之前的LLMs花费更长的时间来找到答案——但由于它们在之前模型会失败的地方给出了正确答案,它们的响应是值得等待的。
思考成本的相似性
推理模型需要时间来解决复杂问题,这已经暗示了与人类思维的相似之处:如果你要求一个人即时解决一个难题,他们可能也会失败。德·瓦尔达希望更系统地研究这种关系。因此,他给推理模型和人类志愿者提供了相同的问题集,不仅跟踪他们是否得到正确答案,还跟踪他们到达答案所需的时间或努力程度。
这意味着测量人们对每个问题的响应时间,精确到毫秒。对于模型,德·瓦尔达使用了不同的指标。测量处理时间没有意义,因为这更多取决于计算机硬件而非模型解决问题的努力程度。相反,他跟踪"tokens",这是模型思维链的组成部分。"它们生成的tokens不是给用户看的,而是为了记录它们正在进行的内部计算,"德·瓦尔达解释道,"就好像它们在自言自语。"
人类和推理模型都被要求解决七种不同类型的问题,如数字算术和直觉推理。对于每种问题类型,他们都被给出了许多问题。给定问题越难,人类解决它所需的时间越长——而人类解决问题所需的时间越长,推理模型在得出自己解决方案时生成的tokens就越多。
同样,人类花费最长时间解决的问题类型与需要最多tokens的模型问题类型相同:算术问题需求最低,而称为"ARC挑战"的一组问题(其中成对的彩色网格表示必须推断并应用于新对象的转换)对两者来说都是最耗时的。
研究意义与未来方向
德·瓦尔达和费多伦科表示,思考成本上的惊人匹配证明了推理模型在某种程度上像人类一样思考。但这并不意味着这些模型正在重现人类智能。研究人员仍然想知道模型是否使用与人类大脑相似的信息表示方式,以及这些表示如何转化为问题的解决方案。
他们还好奇模型是否能够处理那些需要世界知识的问题,而这些知识并没有在用于模型训练的文本中明确说明。研究人员指出,尽管推理模型在解决问题时会产生内部独白,但它们不一定在用语言思考。"如果你观察这些模型在推理时产生的输出,即使它们最终得出正确答案,其中也常常包含错误或一些无意义的内容。因此,实际的内部计算可能发生在抽象的、非语言表示空间中,类似于人类不使用语言思考的方式。"
这一发现对人工智能研究和认知科学都具有重要意义。它不仅揭示了高级AI系统可能正在发展出类似人类的思维模式,还为研究人员提供了研究人类认知的新工具。通过观察AI模型如何解决复杂问题,科学家可能获得关于人类思维机制的宝贵见解。
对AI开发的启示
这一发现对AI开发具有深远影响。首先,它表明在追求高性能AI系统时,某些类人特性可能是自然涌现的,而非刻意设计的结果。其次,它强调了在AI训练过程中考虑"思考时间"的重要性,这可能有助于开发更稳健、更可靠的系统。
此外,研究结果暗示,未来的AI系统可能需要更多"思考空间"来处理复杂问题,这与人类需要时间来深思熟虑的倾向相一致。这可能引导AI设计者开发允许模型进行更多内部计算的架构,而不仅仅是追求即时响应。
结论
MIT的这项研究揭示了人类思维与新型AI推理模型之间令人惊讶的相似性,特别是在解决复杂问题时表现出的"思考成本"一致性。这一发现不仅挑战了我们对人工智能工作原理的理解,也为开发更接近人类思维方式的AI系统提供了重要线索。
虽然研究人员强调这种相似性并非刻意设计,而是系统优化过程中自然涌现的特性,但它仍然为人工智能和认知科学领域开辟了新的研究方向。随着AI系统继续发展,理解它们如何与人类思维相似或不同,将对于创造真正有益于人类的智能系统至关重要。
正如费多伦科所说:"构建这些模型的人并不关心它们是否像人类一样思考。他们只希望系统能在各种条件下稳定运行并产生正确答案。"这种收敛现象确实相当引人注目,也为人工智能的未来发展指明了令人兴奋的方向。









