在人工智能领域,一个长期存在的问题是:机器的思维方式与人类有何不同?麻省理工学院(MIT)的神经科学家们最近进行的一项研究,为这个问题提供了令人惊讶的答案。他们发现,人类与新型AI推理模型在解决复杂问题时,展现出令人惊讶的相似性。
研究背景:从语言模型到推理模型
大型语言模型(LLMs)如ChatGPT等,能够在瞬间撰写文章或规划菜单,但在过去,这些模型很容易被难倒。这些依赖语言模式回应用户查询的模型,在数学问题和复杂推理方面表现不佳。
然而,情况突然发生了变化。被称为"推理模型"的新一代大型语言模型经过专门训练,能够解决复杂问题。与人类一样,这些模型也需要一些时间来思考问题——值得注意的是,MIT麦戈文脑研究所的科学家们发现,需要推理模型进行最多处理的问题,恰恰是人类需要花时间思考的问题。
换句话说,正如他们在《美国国家科学院院刊》(PNAS)上发表的研究所报告的那样,推理模型的"思维成本"与人类的思维成本相似。
研究方法:时间与计算量的比较
这项研究由MIT脑与认知科学系副教授、麦戈文研究所研究员Evelina Fedorenko领导。研究团队包括K. Lisa Yang ICoN中心研究员、Fedorenko实验室博士后Andrea Gregor de Varda。
为了系统性地比较人类和AI的思维方式,de Varda给推理模型和人类志愿者提供了相同的问题集,并不仅跟踪他们是否得到正确答案,还记录他们到达答案所需的时间和精力。
对于人类,这意味着测量每个人对每个问题做出反应所需的时间,精确到毫秒。对于模型,de Varda使用了不同的指标。由于处理时间更多依赖于计算机硬件而非模型解决问题的努力,因此他跟踪的是"tokens"(标记),这是模型内部思维链的一部分。
"它们产生的标记并非供用户查看,而是为了记录它们正在进行的内部计算,"de Varda解释道,"就好像它们在自言自语一样。"
研究发现:思维成本的高度一致性
研究团队给人类和推理模型提出了七种不同类型的问题,包括数字算术和直观推理。对于每个问题类别,他们都提供了许多问题。
研究发现,问题的难度越大,人类解决它所需的时间就越长;而人类解决问题的时间越长,推理模型在得出自己解决方案时产生的标记就越多。
同样,人类花费时间最长解决的问题类别,也正是模型需要最多标记的类别:算术问题需求最低,而被称为"ARC挑战"的一组问题(其中彩色网格对表示必须推断并应用于新对象的转换)对人和模型来说都是成本最高的。
Fedorenko指出:"这种思维成本的惊人匹配,展示了推理模型以一种类似人类方式思考的一个方面。但这并不意味着模型正在重现人类智能。"
研究意义:AI与人类认知的平行发展
这一发现具有重要意义,因为它表明,尽管AI并非刻意模仿人类思维,但在至少一个重要方面,推理模型展现出类似人类的思维方式。
研究人员仍然想知道,模型是否使用与人类大脑相似的信息表示方式,以及这些表示如何转化为问题的解决方案。他们还好奇模型是否能够处理需要世界知识的问题,而这些知识并未用于模型训练的文本中明确说明。
Fedorenko强调:"构建这些模型的人并不关心它们是否像人类一样思考。他们只希望系统能在各种条件下稳健运行并产生正确答案。"事实上,存在某种 convergence(收敛)是相当令人震惊的。"
研究局限与未来方向
尽管研究发现了AI与人类在思维成本上的相似性,但研究人员指出,这并不意味着模型正在完全复制人类智能。
首先,虽然推理模型在解决问题时会产生内部独白,但它们不一定是在使用语言进行思考。"如果你观察这些模型在推理时产生的输出,即使模型最终得出正确答案,它也常常包含错误或一些无意义的部分,"de Varda解释道,"因此,实际的内部计算可能发生在抽象的、非语言表示空间中,类似于人类不使用语言进行思考的方式。"
未来的研究将探索模型是否能够处理需要更广泛世界知识的问题,以及它们的内部计算过程是否与人类神经活动有更深入的相似之处。
结论:意外的认知平行
这项研究揭示了人工智能与人类认知之间一个令人惊讶的平行:解决复杂问题的"成本"在两者之间是相似的。这一发现不仅增进了我们对AI工作原理的理解,也为研究人类思维提供了新的工具和视角。
随着AI技术的不断发展,理解这些系统如何思考将变得越来越重要。这项研究为我们提供了一个框架,通过这个框架,我们可以开始比较和对比人类与机器的认知过程,最终可能揭示智能的本质——无论它是生物的还是人工的。

正如Fedorenko所言:"这种收敛现象确实令人震惊。"它提醒我们,尽管AI和人类大脑的进化路径截然不同,但在解决复杂问题时,它们可能遵循着某些共同的认知原则。这一发现不仅对AI研究具有重要意义,也可能为我们理解人类自身的思维过程提供新的见解。










