在工程师们基于训练数据构建AI语言模型(如GPT-5)时,至少出现了两种主要的处理特征:记忆(复述之前见过的精确文本,如著名引言或书籍段落)以及所谓的"推理"(使用一般原理解决新问题)。AI初创公司Goodfire.ai的新研究首次提供了明确的证据,表明这些不同的功能实际上通过模型架构中完全独立的神经通路运作。
研究发现:记忆与推理的清晰分离
研究人员发现,这种分离异常清晰。在10月底发布的预印本论文中,他们描述了当移除记忆通路时,模型失去了97%的逐字复述训练数据的能力,但几乎保持了所有"逻辑推理"能力。
例如,在艾伦人工智能研究所的OLMo-7B语言模型的第22层,研究人员根据称为"曲率"的指标(下文将详细解释)将所有权重组件(处理信息的数学值)从高到低排序。当他们检查这些排名组件时,排名靠后的50%权重组件在记忆数据上的激活度高出23%,而排名前10%的组件在普通非记忆文本上的激活度高出26%。
换句话说,专门用于记忆的组件聚集在排名的底部,而问题解决组件则聚集在顶部。这种机制上的分离使研究人员能够"外科手术式"地移除记忆同时保留其他能力。他们发现可以删除排名靠后的组件来消除记忆,同时保留处理问题解决的排名靠前的组件。
数学能力与记忆的意外关联
最令人惊讶的是,研究人员发现算术操作似乎与记忆共享相同的神经通路,而非逻辑推理。当移除记忆电路时,数学能力骤降至66%,而逻辑任务几乎未受影响。这一发现可能解释了为什么AI语言模型在未使用外部工具时 notoriously struggle with math(在数学方面表现不佳)。它们试图从有限的记忆表中回忆算术,而非进行计算,就像一个记住了乘法表但从未理解乘法如何运作的学生。这一发现表明,在当前规模下,语言模型将"2+2=4"更多地视为记忆事实而非逻辑操作。
值得注意的是,AI研究中的"推理"涵盖了一系列能力,这些能力不一定与我们人类所说的推理相匹配。在这项最新研究中,即使在移除记忆后仍然存活的逻辑推理包括评估真/假命题和遵循if-then规则等任务,这些任务本质上是将学习到的模式应用于新输入。这也与当前AI模型即使在模式匹配能力保持完整的情况下仍然 struggles with(难以应对)的证明或新颖问题解决所需的更深层次的"数学推理"不同。
未来应用:选择性移除信息的可能性
展望未来,如果信息移除技术在未来得到进一步发展,AI公司有一天可能能够从神经网络中移除版权内容、私人信息或有害的记忆文本,而不会破坏模型执行转换任务的能力。然而,由于神经网络以仍然不完全理解的方式分布式存储信息,研究人员表示,目前他们的方法"无法保证敏感信息的完全消除"。这是AI新研究方向中的早期步骤。
神经景观:理解记忆与推理分离的关键
要理解Goodfire的研究人员如何在这些神经网络中区分记忆与推理,了解AI中称为"损失景观"的概念会有所帮助。"损失景观"是一种可视化方法,展示了在调整AI模型的内部设置(称为"权重")时,其预测的错误程度。
想象你正在调校一个有数百万个旋钮的复杂机器。"损失"衡量机器犯错的次数。高损失意味着许多错误,低损失意味着错误很少。"景观











