AI神经网络中记忆与推理的分离机制:突破性发现揭示AI学习本质

1

在人工智能领域,语言模型如GPT-5的训练过程中,至少出现了两种主要的处理特征:记忆能力(准确复述之前见过的文本,如名言警句或书籍片段)和所谓的"推理"能力(使用一般性原则解决新问题)。AI初创公司Goodfire.ai的最新研究首次提供了清晰证据,表明这些不同功能实际上在模型的架构中通过完全独立的神经通路工作。

记忆与推理的神经分离

研究人员发现,这种分离异常清晰。在十月底发布的预印本论文中,他们描述道,当移除记忆通路后,模型失去了97%的原文复述能力,但几乎保持了所有"逻辑推理"能力的完整性。

以艾伦人工智能研究所OLMo-7B语言模型的第22层为例,研究人员根据称为"曲率"的指标(下文将详细解释),将所有权重组件(处理信息的数学值)从高到低排序。当他们检查这些排序后的组件时,排名靠后的50%权重组件在记忆数据上的激活度高出23%,而排名前10%的组件在普通非记忆文本上的激活度高出26%。

换句话说,专门用于记忆的组件集中在排名的底部,而问题解决组件则聚集在顶部。这种机制上的分离使研究人员能够"外科手术式"地移除记忆,同时保留其他能力。他们发现可以删除排名靠后的组件来消除记忆,同时保留处理问题解决的排名靠前的组件。

数学计算与记忆的意外关联

最令人惊讶的是,研究人员发现算术运算似乎与记忆共享相同的神经通路,而非逻辑推理。当他们移除记忆电路时,数学性能骤降至66%,而逻辑任务则几乎未受影响。这一发现可能解释了为什么AI语言模型在未使用外部工具时 notoriously 在数学计算上表现不佳。它们试图从有限的记忆表中回忆算术,而非进行计算,就像一个只背诵了乘法表但从未理解乘法原理的学生。这一发现表明,在当前规模下,语言模型将"2+2=4"更多地视为记忆事实而非逻辑运算。

值得注意的是,AI研究中的"推理"涵盖了一系列能力,这些能力不一定与我们人类所说的推理相匹配。在最新研究中,即使移除了记忆,幸存的逻辑推理包括评估真假陈述和遵循if-then规则等任务,这些任务本质上是将学习到的模式应用于新输入。这也与当前AI模型即使在模式匹配能力保持完整的情况下仍然 struggle 的更深层次的"数学推理"(如证明或新颖问题解决)有所不同。

神经景观:理解AI学习的新视角

要理解Goodfire的研究人员如何在这些神经网络中区分记忆与推理,需要了解AI中的一个概念称为"损失景观"。"损失景观"是一种可视化方法,展示当你调整AI模型的内部设置(称为"权重")时,其预测正确或错误的程度。

想象你在调整一台有数百万个旋钮的复杂机器。"损失"衡量机器犯错误的次数。高损失意味着许多错误,低损失意味着少数错误。"景观"是如果你能映射出每个旋钮设置组合的错误率时看到的结果。

在训练过程中,AI模型本质上是在这个景观中"滚下山"(梯度下降),调整其权重以找到错误最少的山谷。这个过程提供了AI模型的输出,如问题的答案。

Figure 1: Overview of our approach. We collect activations and gradients from a sample of training data (a), which allows us to approximate loss curvature w.r.t. a weight matrix using K-FAC (b). We decompose these weight matrices into components (each the same size as the matrix), ordered from high to low curvature. In language models, we show that data from different tasks interacts with parts of the spectrum of components differently (c).

研究人员分析了特定AI语言模型损失景观的"曲率",衡量模型性能对不同神经网络权重微小变化的敏感度。尖锐的峰谷代表高曲率(微小变化产生巨大效果),而平坦的平原代表低曲率(变化影响最小)。如前所述,他们使用这些曲率值将权重组件从高到低排序。

使用一种称为K-FAC(Kronecker分解近似曲率)的技术,他们发现单个记忆事实在这个景观中创造了尖锐的峰值,但由于每个记忆项目在不同的方向上产生峰值,当它们平均在一起时,会创造出平坦的轮廓。与此同时,许多不同输入依赖的推理能力在整个景观中保持一致的适度曲线,就像无论从哪个方向接近都保持大致相同形状的起伏山丘。

研究人员写道:"实现许多输入共享机制的路径会相干地叠加,并平均保持高曲率。"相比之下,记忆使用"与特定示例相关的特殊尖锐方向",当在数据中平均时,这些方向呈现平坦状态。

不同任务揭示机制谱系

研究人员在多个AI系统上测试了他们的技术,以验证这些发现在不同架构中是否成立。他们主要使用艾伦研究所的OLMo-2开放语言模型家族,特别是70亿和10亿参数版本,选择它们是因为其训练数据公开可获取。对于视觉模型,他们在ImageNet上训练了定制的8600万参数Vision Transformer (ViT-Base模型),并故意使用错误标签的数据来创建受控的记忆场景。他们还对照现有的记忆移除方法(如BalancedSubnet)验证了他们的发现,以建立性能基准。

研究团队通过从这些训练好的模型中选择性地移除低曲率权重组件来测试他们的发现。记忆内容 recall 从近100%下降到3.4%。与此同时,逻辑推理任务保持了95%到106%的基线性能。

这些逻辑任务包括布尔表达式评估、逻辑推理谜题(解决者必须跟踪"如果A比B高"等关系)、通过多次交换进行对象跟踪,以及基准测试如用于是/否推理的BoolQ、用于常识推理的Winogrande,以及需要根据提供的事实进行推理的科学问题OpenBookQA。一些任务介于这些极端之间,揭示了机制的谱系。

数学运算和闭卷事实检索与记忆共享路径,在编辑后性能下降到66%到86%。研究团队发现算术特别脆弱。即使模型生成相同的推理链,在移除低曲率组件后,它们仍然在计算步骤上失败。

Figure 3: Sensitivity of different kinds of tasks to ablation of flatter eigenvectors. Parametric knowledge retrieval, arithmetic, and memorization are brittle, but openbook fact retrieval and logical reasoning is robust and maintain around 100% of original performance.

研究团队解释道:"算术问题本身在7B规模上是记忆的,或者因为它们需要使用狭义方向进行精确计算。"依赖于提供上下文而非内部知识的开放问答系统证明对编辑程序最稳健,保持了接近完整的性能。

有趣的是,机制分离因信息类型而异。像国家首都这样的常见事实在编辑后几乎没有变化,而像公司CEO这样的罕见事实则下降了78%。这表明模型根据信息在训练中出现的频率分配不同的神经资源。

K-FAC技术在不需要记忆内容训练示例的情况下,优于现有的记忆移除方法。在未见过的历史引言上,K-FAC实现了16.1%的记忆率,而之前最好的方法BalancedSubnet则为60%。

视觉变压器显示了类似的模式。当故意使用错误标签进行训练时,模型发展出用于记忆错误标签与学习正确模式的独立路径。移除记忆通路恢复了先前错误标记图像上66.5%的准确性。

记忆移除的局限性

然而,研究人员承认他们的技术并不完美。如果模型接收更多训练,一度被移除的记忆可能会回归,因为其他研究表明,当前的遗忘方法只是抑制信息,而非从神经网络的权重中完全擦除。这意味着"被遗忘"的内容只需针对这些被抑制区域的几个训练步骤就可以重新激活。

研究人员也无法完全解释为何某些能力(如数学)在移除记忆时如此容易失效。目前尚不清楚模型是否真的记忆了所有算术,或者数学碰巧使用了与记忆类似的神经回路。此外,一些复杂能力在他们的检测方法中可能看起来像记忆,即使它们实际上是复杂的推理模式。最后,他们用来测量模型"景观"的数学工具在极端情况下可能变得不可靠,尽管这不会影响实际的编辑过程。

未来展望

展望未来,如果信息移除技术在未来得到进一步发展,AI公司有一天可能能够从神经网络中移除受版权保护的内容、私人信息或有害的记忆文本,同时不破坏模型执行转换任务的能力。然而,由于神经网络以分布式方式存储信息,这些方式仍未完全被理解,研究人员表示,目前他们的方法"不能保证敏感信息的完全消除"。这是AI新研究方向中的早期步骤。

这项研究不仅深化了我们对AI模型工作原理的理解,还为改进模型性能和解决AI伦理问题提供了新思路。通过区分和分别处理记忆与推理能力,我们可能能够开发出更高效、更安全、更可靠的AI系统,这些系统既能利用记忆的优势,又能真正理解并应用逻辑推理。