思维成本惊人相似：MIT发现人类与AI模型解决复杂问题的惊人平行

在人工智能飞速发展的今天，一个引人深思的问题浮出水面：AI的思维方式与人类究竟有多相似？麻省理工学院(MIT)的神经科学家们近日在《美国国家科学院院刊》(PNAS)上发表的研究揭示了一个令人惊讶的答案：人类与新一代AI推理模型在解决复杂问题时，其'思维成本'展现出惊人的相似性。

研究背景：从语言模型到推理模型的飞跃

大型语言模型(LLMs)如ChatGPT能够在瞬间撰写文章或规划菜单，但直到最近，这些模型仍然很容易被难倒。这些主要依赖语言模式回应用户查询的模型，在数学问题和复杂推理方面表现不佳。然而，情况突然发生了变化——新一代被称为'推理模型'的大语言模型在训练后能够解决复杂问题。

"在不久前，我还在说这些模型在感知和语言方面表现很好，但要神经网络模型能够进行推理，还需要很长时间，"麻省理工学院麦戈文脑研究所的副教授Evelina Fedorenko表示，"然后这些大型推理模型出现了，它们在解决数学问题和编写计算机代码等思维任务上表现得更好。"

研究团队由Fedorenko副教授领导，她同时是脑与认知科学系的副教授和麦戈文脑研究所的研究员。为了系统比较人类与AI模型的思维过程，研究人员采用了创新的测量方法。

对于人类参与者，研究精确测量了他们回答每个问题所需的时间，精确到毫秒。而对于AI模型，由于处理时间更多取决于计算机硬件而非模型解决问题的努力程度，研究人员采用了不同的指标——'token'（标记）。

"token是模型内部思维链的一部分，"麦戈文脑研究所K. Lisa Yang ICoN中心研究员、Fedorenko实验室的博士后Andrea Gregor de Varda解释道，"模型产生的token并非给用户看的，而是为了追踪其内部计算过程，就好像它们在自言自语。"

研究团队让人类参与者和推理模型解决七种不同类型的问题，包括数字算术和直观推理等。对于每个问题类别，他们提供了大量问题。

研究结果令人惊讶：问题越难，人类解决它所需的时间越长；而人类解决问题所需的时间越长，推理模型生成相应解决方案时产生的token就越多。同样，人类解决耗时最长的问题类别，也正是模型需要最多token的问题类别。

具体而言，算术问题对两者来说需求最低，而被称为'ARC挑战'的问题（其中成对的彩色网格表示必须推断并应用于新对象的转换）对人类和模型来说都是成本最高的。

"那些构建这些模型的人并不关心它们是否像人类一样思考，他们只希望系统能在各种条件下稳健运行并产生正确答案，"Fedorenko说，"存在某种趋同现象确实相当引人注目。"

这一发现具有重要意义，因为它表明在至少一个重要方面，推理模型采用了类似人类的思维方式。值得注意的是，这种相似性并非刻意设计的结果。

"这一发现并不意味着模型正在重现人类智能，"de Varda指出，"研究人员仍然想知道模型是否使用与人类大脑相似的信息表示方式，以及这些表示如何转化为问题的解决方案。"

研究团队还指出，尽管推理模型在解决问题时会产生内部独白，但这并不意味着它们一定在使用语言进行思考。"如果你观察这些模型在推理时产生的输出，即使最终得到正确答案，其中也常常包含错误或无意义的部分。因此，实际的内计算很可能发生在抽象的、非语言表示空间中，类似于人类不使用语言进行思考的方式。"

这项研究为理解人工智能的认知机制提供了新视角，但也引出了更多值得探索的问题。

研究人员计划进一步探究：

这一发现对人工智能的发展具有重要启示。它表明，随着AI技术的进步，我们可能会看到更多与人类思维相似的特性自然涌现，而非完全刻意设计的结果。

对于AI开发者和研究者来说，这意味着：

MIT的这项研究揭示了人类与AI思维之间的一条意外桥梁。尽管AI系统与人类大脑在基础机制上存在根本差异，但在解决复杂问题的过程中，两者展现出相似的'思维成本'模式。

这一发现不仅加深了我们对人工智能的理解，也为探索人类思维的本质提供了新的视角。随着AI技术的不断发展，这种跨物种的思维相似性可能会为我们揭示更多关于智能本质的奥秘。

正如Fedorenko所言："这种趋同现象确实相当引人注目。"在人工智能与人类认知的交叉领域，这样的发现将继续推动我们对思维和智能的探索边界。