思维成本惊人相似：MIT揭示人类与AI模型解决问题的惊人平行

在人工智能领域，大型语言模型（LLM）如ChatGPT已经能够快速撰写文章或规划菜单，但直到最近，它们仍然容易被数学问题和复杂推理所难倒。然而，新一代被称为"推理模型"的AI系统正在改变这一局面。

MIT麦戈文脑研究所的科学家们发现，这些推理模型与人类在解决复杂问题时展现出惊人的思维模式相似性。研究团队在《美国国家科学院院刊》（PNAS）上发表的报告指出，推理模型需要更多"思考步骤"解决的问题，恰恰是人类需要更多时间解决的问题。换句话说，推理模型的"思维成本"与人类的思维成本高度相似。

研究背景：从语言模型到推理模型的演变

大型语言模型（LLMs）如ChatGPT虽然能够快速生成文本，但在面对复杂推理问题时往往表现不佳。这些模型主要依赖语言模式来响应用户查询，在数学问题和复杂推理方面常常失败。

然而，新一代的推理模型正在改变这一局面。这些模型被专门训练来解决复杂问题，与人类一样，它们需要一定时间来思考问题。MIT的研究人员发现，推理模型需要最多处理的问题类型，恰恰是人类需要最多时间解决的问题类型。

"构建这些模型的人并不关心它们是否以人类的方式解决问题，"麻省理工学院脑与认知科学系副教授、麦戈文研究所研究员Evelina Fedorenko表示，"他们只希望系统能在各种条件下稳健表现并产生正确答案。"她补充道："存在某种收敛现象的事实确实相当引人注目。"

推理模型的工作原理

与许多形式的人工智能一样，新的推理模型是人工神经网络：当给定数据和待解决问题时，学习如何处理信息的计算工具。人工神经网络在许多大脑神经网络擅长的任务上取得了巨大成功，在某些情况下，神经科学家发现表现最佳的人工神经网络确实与大脑在信息处理方面存在某些共同点。

直到最近，Fedorenko一直是那些认为"这些模型在感知和语言方面确实很出色，但要实现能够进行推理的神经网络模型还有很长的路要走"的科学家之一。"然后这些大型推理模型出现了，"她说，"它们在解决数学问题和编写计算机代码等许多思维任务上表现得更好。"

麦戈文研究所K. Lisa Yang ICoN中心研究员、Fedorenko实验室博士后Andrea Gregor de Varda解释说，推理模型逐步解决问题。"在某个时刻，人们意识到模型需要更多空间来执行解决复杂问题所需的实际计算，"他说，"如果你让模型将问题分解为部分，性能就会变得强得多。"

强化学习与逐步推理

为了鼓励模型逐步解决复杂问题并导向正确解决方案，工程师可以使用强化学习。在训练过程中，模型因正确答案而获得奖励，因错误答案而受到惩罚。"模型自己探索问题空间，"de Varda说，"导致积极奖励的动作被强化，因此它们更频繁地产生正确的解决方案。"

以这种方式训练的模型比其前身更有可能在给定推理任务时得出与人类相同的答案。它们的逐步解决问题确实意味着推理模型可能比之前的LLMs花更长的时间找到答案——但由于它们在之前模型会失败的地方得到正确答案，它们的回答是值得等待的。

时间与token：测量思维成本

推理模型需要一些时间来解决复杂问题，这已经暗示了与人类思维的相似性：如果你要求一个人即时解决一个难题，他们可能也会失败。De Varda希望更系统地研究这种关系。因此，他给推理模型和人类志愿者相同的问题集，不仅跟踪他们是否得到正确答案，还跟踪他们到达答案所需的时间或努力程度。

这意味着测量人们响应每个问题所需的时间，精确到毫秒。对于模型，de Varda使用了不同的指标。测量处理时间没有意义，因为这更多取决于计算机硬件而非模型投入解决问题的努力。因此，他跟踪token，这是模型思维链的一部分。"他们产生的token不是给用户看的，而是为了跟踪他们正在进行的内部计算，"de Varda解释道，"这就像他们在自言自语。"

研究发现：思维成本的惊人匹配

人类和推理模型都被要求解决七种不同类型的问题，如数字算术和直观推理。对于每个问题类别，他们都被给出了许多问题。给定问题的难度越大，人类解决它所需的时间越长——而人类解决问题的时间越长，推理模型在得出自己解决方案时生成的token就越多。

同样，人类花费最长时间解决的问题类别与模型需要最多token的问题类别相同：算术问题需求最少，而被称为"ARC挑战"的一组问题（其中成对的彩色网格表示必须推断并应用于新对象的转换）对两者来说成本最高。

De Varda和Fedorenko表示，思维成本上的惊人匹配展示了推理模型以某种方式像人类思维的一个方面。但这并不意味着模型正在重现人类智能。研究人员仍然想知道模型是否使用与人类大脑类似的信息表示，以及这些表示如何转化为解决问题的方案。他们还好奇模型是否能够处理那些需要世界知识的问题，而这些知识没有在用于模型训练的文本中明确说明。

语言与思维：并非必然关联

研究人员指出，尽管推理模型在解决问题时会产生内部独白，但它们不一定使用语言来思考。"如果你观察这些模型在推理时产生的输出，即使模型最终得出正确答案，它也常常包含错误或一些无意义的内容，"de Varda说，"因此，实际的内部计算很可能发生在抽象的、非语言表示空间中，类似于人类不使用语言进行思考的方式。"

研究意义与未来方向

这项研究的重要性在于，它揭示了AI与人类思维在解决复杂问题时的相似性，这种相似性并非人为设计，而是系统发展的自然结果。这一发现对理解AI如何模拟人类思维、以及如何设计更接近人类认知方式的AI系统具有重要意义。

未来，研究人员计划探索模型是否使用与人类大脑类似的信息表示，以及这些表示如何转化为解决问题的方案。他们还希望了解模型是否能够处理那些需要超出训练文本范围的世界知识的问题。

这项研究不仅为AI与人类认知的比较提供了新视角，也为开发更高效、更接近人类思维方式的AI系统提供了理论基础。随着AI技术的不断发展，理解AI与人类思维的相似性与差异，将有助于我们更好地利用AI解决复杂问题，同时也能更深入地理解人类自身的认知机制。