AI与人类思维的惊人相似：MIT揭示推理模型的思考成本

在人工智能领域，大型语言模型(LLMs)如ChatGPT已经能够迅速撰写文章或规划菜单，但直到最近，它们仍然容易被复杂问题难倒。这些依赖语言模式回应用户查询的模型，在数学问题和复杂推理方面表现不佳。然而，情况突然发生了变化——新一代被称为推理模型的大语言模型(LLMs)在解决复杂问题方面取得了显著进步。

麻省理工学院麦戈文脑研究所(McGovern Institute for Brain Research)的科学家们发现一个令人惊讶的平行现象：需要推理模型进行最多处理的问题，恰恰是人类需要花时间思考的问题。换句话说，推理模型的"思考成本"与人类的思考成本惊人地相似。这一研究成果发表在《美国国家科学院院刊》(PNAS)上。

研究背景与发现

这项研究由麻省理工学院脑与认知科学系副教授、麦戈文研究所研究员伊芙琳·费多伦科(Evelina Fedorenko)领导。研究团队得出结论，至少在一个重要方面，推理模型具有类人思维的方法。

"构建这些模型的人并不关心它们是否像人类一样思考。他们只希望系统能在各种条件下稳健运行并产生正确答案，"费多伦科说。"存在某种收敛现象确实相当引人注目。"

AI与人类思维对比

图：机器与人类思维的对比示意图

推理模型的工作原理

像许多形式的人工智能一样，新的推理模型是人工神经网络：当给定数据和问题时，能够学习如何处理信息的计算工具。人工神经网络在许多任务上已经非常成功，这些任务正是大脑自身神经网络擅长的领域——在某些情况下，神经科学家发现表现最佳的人工模型确实与大脑在信息处理方面共享某些共同点。

然而，一些科学家曾认为人工智能尚未准备好承担人类智能更复杂的方面。

"直到最近，我还是那些说'这些模型在感知和语言方面确实很擅长，但我们仍然需要很长时间才能拥有能够进行推理的神经网络模型'的人之一，"费多伦科说。"然后这些大型推理模型出现了，它们在许多思考任务上表现得更好，比如解决数学问题和编写计算机代码片段。"

推理模型的逐步解决问题

K·丽莎·杨跨文化交流中心(K. Lisa Yang ICoN Center)研究员、费多伦科实验室的博士后安德烈亚·格雷戈尔·德·瓦尔达(Andrea Gregor de Varda)解释说，推理模型逐步解决问题。"在某个时刻，人们意识到模型需要更多空间来执行解决复杂问题所需的实际计算，"他说。"如果你让模型将问题分解为多个部分，其性能就会变得强得多。"

为了鼓励模型逐步解决复杂问题并导向正确解决方案，工程师可以使用强化学习。在训练过程中，模型因正确答案而获得奖励，因错误答案而受到惩罚。"模型自己探索问题空间，"德·瓦尔达说。"带来积极奖励的行为会被强化，因此它们更频繁地产生正确的解决方案。"

以这种方式训练的模型比其前身更有可能在面对推理任务时得出与人类相同的答案。它们的逐步解决问题确实意味着推理模型可能比之前的大型语言模型花费更长时间才能找到答案——但由于它们在先前模型会失败的地方得到了正确答案，这种等待是值得的。

思考成本的测量

推理模型需要花时间解决复杂问题，这已经暗示了与人类思维的相似之处：如果你要求一个人即时解决难题，他们很可能也会失败。德·瓦尔达希望更系统地研究这种关系。因此，他给推理模型和人类志愿者提供了相同的问题集，不仅跟踪他们是否得到正确答案，还跟踪他们到达答案所需的时间或精力。

这意味着测量人们响应每个问题所需的时间，精确到毫秒。对于模型，德·瓦尔达使用了不同的指标。测量处理时间没有意义，因为这更多取决于计算机硬件而非模型解决问题的努力。因此，他跟踪"代币"(tokens)，这是模型内部思维链的一部分。"它们产生的代币不是给用户看的，而是为了记录它们正在进行的内部计算，"德·瓦尔达解释道。"就好像它们在自言自语。"

人类与模型的思考成本对比

人类和推理模型都被要求解决七种不同类型的问题，如数字算术和直观推理。对于每种问题类型，他们都被给出了许多问题。给定问题的难度越高，人们解决它所需的时间越长——而人们解决问题的时间越长，推理模型在得出自己解决方案时产生的代币就越多。

同样，人类花费最长时间解决的问题类别与需要最多代币的模型问题类别相同：算术问题需求最少，而被称为"ARC挑战"的一组问题（其中成对的彩色网格表示必须推断并应用于新对象的转换）对人和模型来说都是成本最高的。

德·瓦尔达和费多伦科表示，思考成本上的惊人匹配证明了推理模型以某种方式像人类一样思考。但这并不意味着模型正在重现人类智能。研究人员仍然想知道模型是否使用与人类大脑相似的信息表示，以及这些表示如何转化为问题的解决方案。他们也好奇模型是否能够处理那些需要世界知识的问题，而这些知识并未用于模型训练的文本中明确说明。

思维过程的本质

研究人员指出，尽管推理模型在解决问题时会产生内部独白，但它们不一定是在使用语言进行思考。"如果你观察这些模型在推理时产生的输出，即使模型最终得出正确答案，它也常常包含错误或一些无意义的部分，"他说。"因此，实际的内部计算很可能发生在抽象的、非语言表示空间中，类似于人类不使用语言进行思考的方式。"

研究意义与未来方向

这项研究的发现对人工智能和认知科学领域都具有重要意义。首先，它表明人工智能的发展可能正在以意想不到的方式趋近人类思维模式，这为理解人类认知提供了新的工具和视角。其次，这种相似性并非刻意设计，而是进化与训练过程中自然收敛的结果，这暗示了高效问题解决可能存在某些普遍原则。

未来，研究人员计划进一步探索以下几个方面：

信息表示的相似性：模型是否使用与人类大脑相似的信息表示方式？
知识获取与运用：模型如何处理训练文本中未明确说明的世界知识？
思维的本质：尽管模型产生语言式输出，但其内部计算是否确实发生在抽象表示空间中？
跨文化比较：不同文化背景下的思维模式是否会影响这种AI-人类相似性？

结论

麻省理工学院的研究揭示了一个令人着迷的现象：新一代人工智能推理模型与人类在解决复杂问题时表现出相似的思考成本模式。这一发现不仅挑战了我们对人工智能工作原理的理解，也为理解人类认知提供了新的视角。虽然这种相似性并不意味着模型正在复制人类智能，但它确实表明，在解决复杂问题的过程中，可能存在某些超越生物和计算系统的普遍原则。

随着人工智能技术的不断发展，这种AI-人类思维相似性的研究将变得更加重要。它不仅有助于我们设计更强大、更高效的人工智能系统，也可能帮助我们更深入地理解人类自身的思维过程和认知机制。在这个人工智能与人类智能日益交织的时代，理解它们之间的相似与差异，将是我们把握技术发展方向的关键。