AI神经网络中记忆与推理功能的分离机制研究

1

在人工智能领域,一个长期存在的谜题是:AI语言模型如何存储和处理信息?最新研究提供了令人惊讶的答案——记忆功能与推理能力实际上通过完全不同的神经通路工作。这一发现不仅改变了我们对AI工作方式的理解,还可能为未来的模型优化和安全应用开辟新道路。

记忆与推理:AI的双重能力

当工程师基于训练数据构建AI语言模型(如GPT-5)时,至少会出现两种主要的处理特征:记忆(准确复述之前见过的文本,如著名引言或书籍段落)和所谓的推理(使用一般原则解决新问题)。AI初创公司Goodfire.ai的最新研究首次提供了清晰证据,表明这些不同功能实际上通过模型架构中完全独立的神经通路工作。

研究人员发现,这种分离异常清晰。在10月底发布的预印本论文中,他们描述了当移除记忆通路时,模型失去了97%的逐字复述训练数据的能力,但保持了几乎全部的"逻辑推理"能力。

神经通路的明确分离

这项研究的核心创新在于发现了记忆与推理在神经网络中的物理分离。以艾伦人工智能研究所的OLMo-7B语言模型第22层为例,研究人员根据称为"曲率"的指标(下文将详细解释)对所有权重组件(处理信息的数学值)从高到低进行排序。

当检查这些排序后的组件时,排名靠后的50%权重组件在记忆数据上的激活度高出23%,而排名前10%的组件在一般非记忆文本上的激活度高出26%。换句话说,专门用于记忆的组件聚集在排名的底部,而解决问题的组件则聚集在顶部。

神经网络权重组件激活模式

这种机械性的分裂使研究人员能够外科手术式地移除记忆同时保留其他能力。他们发现可以删除排名靠后的组件来消除记忆,同时保留处理问题解决的排名靠前的组件。

算术能力:记忆而非推理的产物

最令人惊讶的发现是,算术操作似乎与记忆共享相同的神经通路,而非逻辑推理。当移除记忆电路时,数学性能骤降至66%,而逻辑任务几乎未受影响。

这一发现可能解释了为什么AI语言模型在没有外部工具的情况下 notoriously struggle with math。研究人员指出,模型试图从有限的记忆表中回忆算术,而不是计算它,就像一个只记住了乘法表但从未理解乘法如何工作的学生。

这一发现表明,在当前规模下,语言模型将"2+2=4"更多地视为记忆事实而非逻辑运算。这解释了为什么即使是最先进的AI模型在简单算术上也经常出错,除非使用专门的计算工具。

"推理"概念的重新定义

值得注意的是,AI研究中的"推理"涵盖了一系列能力,这些能力不一定与我们人类所说的推理相匹配。在最新研究中,即使移除了记忆,仍然存在的逻辑推理包括评估真/假陈述和遵循if-then规则等任务,这些本质上是将学习到的模式应用于新输入。

这也与当前AI模型即使在模式匹配能力保持完整的情况下仍然 struggle with 的更深层次的"数学推理"(证明或新颖问题解决所需)有所不同。

损失景观:理解AI的新视角

为了理解Goodfire的研究人员如何在这些神经网络中区分记忆与推理,了解AI中称为"损失景观"的概念很有帮助。"损失景观"是一种可视化方式,展示了当你调整AI模型的内部设置(称为"权重")时,其预测的错误或正确程度。

想象一下,你正在用数百万个旋钮调谐一台复杂的机器。"损失"衡量机器犯的错误数量。高损失意味着许多错误,低损失意味着错误很少。"景观"就是你能看到的,如果你能映射出每个旋钮设置组合的错误率。

在训练期间,AI模型本质上是在这个景观中"滚下山"(梯度下降),调整其权重以找到错误最少的山谷。这个过程提供了AI模型的输出,如问题的答案。

不同任务对损失曲率变化的敏感性

研究人员分析了特定AI语言模型损失景观的"曲率",测量模型性能对不同神经网络权重微小变化的敏感度。尖锐的峰谷代表高曲率(微小变化产生大效果),而平坦的平原代表低曲率(变化影响最小)。

他们使用称为K-FAC(Kronecker-Factored Approximate Curvature)的技术发现,单个记忆事实在这个景观中创造尖锐的尖峰,但由于每个记忆项在不同方向上尖峰,当它们平均在一起时,会创建平坦的轮廓。与此同时,许多不同输入依赖的推理能力在整个景观中保持一致的中等曲率,就像无论从哪个方向接近都保持大致相同形状的起伏丘陵。

任务揭示的机制光谱

研究人员在多个AI系统上测试了他们的技术,以验证这些发现在不同架构中是否成立。他们主要使用艾伦研究所的OLMo-2开源语言模型家族,特别是70亿和10亿参数版本,选择它们是因为其训练数据是公开可访问的。对于视觉模型,他们在ImageNet上训练了定制的8600万参数Vision Transformer(ViT-Base模型),并故意使用错误标签的数据来创造受控的记忆场景。

研究方法概览

团队通过从这些训练好的模型中选择性地移除低曲率权重组件来测试他们的发现。记忆内容从近100%的回忆率下降到3.4%。与此同时,逻辑推理任务保持了95%到106%的基线性能。

这些逻辑任务包括布尔表达式评估、逻辑推理谜题(解决者必须跟踪"如果A比B高"之类的关系)、通过多次交换进行对象跟踪,以及基准测试如用于是/否推理的BoolQ、用于常识推断的Winogrande和需要根据提供的事实进行推理的科学问题OpenBookQA。

一些任务介于这两个极端之间,揭示了一系列机制。数学运算和封闭式知识检索与记忆共享通路,在编辑后性能降至66%到86%。研究人员发现算术特别脆弱。即使模型生成相同的推理链,在移除低曲率组件后,它们仍然会在计算步骤上失败。

信息类型的差异机制

有趣的是,机制分离因信息类型而异。像国家首都这样的常见事实在编辑后几乎没有变化,而像公司首席执行官这样的罕见事实则下降了78%。这表明模型根据信息在训练中出现的频率分配不同的神经资源。

K-FAC技术在不需要记忆内容的训练示例的情况下,优于现有的记忆移除方法。在未见过的历史引言上,K-FAC实现了16.1%的记忆保留率,而之前最好的方法BalancedSubnet为60%。

视觉变压器显示出类似的模式。当使用故意错误标记的图像进行训练时,模型发展出用于记忆错误标签与学习正确模式的独立通路。移除记忆通路恢复了先前错误标记图像上66.5%的准确性。

记忆移除的局限性

然而,研究人员承认他们的技术并不完美。一旦移除的记忆可能会在模型接收更多训练时返回,因为其他研究表明,当前的遗忘方法只是抑制信息,而不是完全从神经网络的权重中擦除它。这意味着"被遗忘"的内容只需针对这些被抑制区域的几个训练步骤就可以重新激活。

研究人员也无法完全解释为什么某些能力(如数学)在移除记忆时如此容易崩溃。目前尚不清楚模型是否真的记住了所有算术,或者数学只是恰好使用与记忆相似的神经电路。此外,一些复杂的能力在他们的检测方法中可能看起来像记忆,即使它们实际上是复杂的推理模式。

最后,他们用来测量模型"景观"的数学工具在极端情况下可能变得不可靠,尽管这并不影响实际的编辑过程。

未来展望

展望未来,如果信息移除技术在未来得到进一步发展,AI公司有一天可能能够从神经网络中移除版权内容、私人信息或有害记忆文本,同时不破坏模型执行转换任务的能力。然而,由于神经网络以仍然不完全理解的方式存储信息,研究人员表示,目前他们的方法"不能保证完全消除敏感信息"。这是AI新研究方向的开端。

这项研究不仅深化了我们对AI工作原理的理解,还为解决AI伦理问题提供了新思路。通过理解记忆与推理的分离,我们或许能够开发出更安全、更可控的AI系统,同时保留其强大的推理能力。