在人工智能领域,语言模型如GPT-5等从训练数据中构建时,至少会出现两大主要处理特征:记忆能力(精确复述之前见过的文本,如著名引言或书籍段落)和所谓的"推理"能力(使用一般原则解决新问题)。AI初创公司Goodfire.ai的最新研究提供了首个潜在明确证据,表明这些不同功能实际上通过模型架构中完全独立的神经路径工作。
记忆与推理的惊人分离
研究人员发现,这种分离现象表现得极为清晰。在一篇十月底发布的预印本论文中,他们描述了当移除记忆路径时,模型失去了97%的原文复述能力,但保持了几乎所有的"逻辑推理"能力。
以艾伦人工智能研究所的OLMo-7B语言模型第22层为例,研究人员根据称为"曲率"的指标(下文将详细解释),将所有权重组件(处理信息的数学值)从高到低排序。当他们检查这些排序后的组件时,排名靠后的50%权重组件在记忆数据上的激活度高23%,而排名前10%的组件在普通非记忆文本上的激活度高26%。
换句话说,专门负责记忆的组件集中在排名的底部,而问题解决组件则聚集在顶部。这种机制性的分离使研究人员能够"外科手术式"地移除记忆同时保留其他能力。他们发现可以删除排名靠后的组件来消除记忆,同时保留处理问题解决的排名靠前的组件。
算术能力与记忆的关联
最令人惊讶的是,研究人员发现算术运算似乎与记忆共享相同的神经路径,而非逻辑推理。当移除记忆电路时,数学性能骤降至66%,而逻辑任务几乎不受影响。这一发现可能解释了为什么AI语言模型在没有外部工具的情况下 notoriously struggle with math。它们试图从有限的记忆表中回忆算术,而不是计算它,就像一个记住了乘法表但从未理解乘法如何运作的学生。这一发现表明,在当前规模下,语言模型将"2+2=4"更多地视为记忆事实而非逻辑运算。
值得注意的是,AI研究中的"推理"涵盖了多种能力,不一定与人类所说的推理相匹配。在这项最新研究中,即使移除了记忆,逻辑推理仍然包括评估真假语句和遵循if-then规则等任务,这些本质上是将学习到的模式应用于新输入。这也与当前AI模型即使在模式匹配能力保持完整的情况下仍然 struggle with 的证明或新颖问题解决所需的更深层次的"数学推理"不同。
神经景观的探索
为了理解Goodfire的研究人员如何在这些神经网络中区分记忆与推理,了解AI中称为"损失景观"的概念会有所帮助。"损失景观"是一种可视化AI模型预测正确或错误程度的方法,同时调整其内部设置(称为"权重")。
想象你正在调整一个有数百万个旋钮的复杂机器。"损失"衡量机器犯错的次数。高损失意味着许多错误,低损失意味着错误少。"景观"是如果你能映射出每个旋钮设置组合的错误率时你会看到的东西。
在训练期间,AI模型基本上在这个景观中"滚下山"(梯度下降),调整其权重以找到它们犯错误最少的山谷。这个过程提供了AI模型的输出,比如问题的答案。
研究人员分析了特定AI语言模型的损失景观的"曲率",测量模型性能对不同神经网络权重微小变化的敏感度。尖锐的峰谷代表高曲率(微小变化产生大效果),而平坦的平原代表低曲率(变化影响最小)。如前所述,他们使用这些曲率值将权重组件从高到低排序。
使用称为K-FAC(Kronecker-Factored Approximate Curvature)的技术,他们发现单个记忆事实在这个景观中创造尖锐的尖峰,但由于每个记忆项目在不同方向上产生尖峰,当它们平均在一起时,它们创造平坦的轮廓。与此同时,许多不同输入依赖的推理能力在整个景观中保持一致的中等曲率,就像无论从哪个方向接近都保持大致相同形状的起伏丘陵。
研究人员写道:"实现许多输入共享机制的方向相干地添加并平均保持高曲率,"描述推理路径。相比之下,记忆使用"与特定示例相关的特殊尖锐方向",在数据平均时显得平坦。
不同任务揭示的机制光谱
研究人员在多个AI系统上测试了他们的技术,以验证这些发现在不同架构中的一致性。他们主要使用艾伦研究所的OLMo-2开放语言模型系列,特别是70亿和10亿参数版本,选择它们是因为其训练数据公开可访问。对于视觉模型,他们在ImageNet上训练了定制的8600万参数Vision Transformer模型,并故意使用错误标签的数据来创建受控记忆。他们还对照现有的记忆移除方法如BalancedSubnet验证了他们的发现,以建立性能基准。
团队通过从这些训练过的模型中选择性地移除低曲率权重组件来测试他们的发现。记忆内容从近100%的回忆率降至3.4%。同时,逻辑推理任务保持了95%到106%的基线性能。
这些逻辑任务包括布尔表达式评估、逻辑推理谜题(解决者必须跟踪"如果A比B高"等关系)、通过多次交换进行的目标跟踪,以及像BoolQ用于是/否推理、Winogrande用于常识推理和OpenBookQA需要根据提供的事实进行推理的科学问题等基准测试。一些任务介于这两个极端之间,揭示了机制的光谱。
数学运算和闭卷事实检索与记忆共享路径,在编辑后性能降至66%到86%。研究人员发现算术特别脆弱。即使模型生成相同的推理链,在移除低曲率组件后,它们在计算步骤仍然失败。
"算术问题本身在7B规模下被记忆,或者因为它们需要使用狭窄的方向进行精确计算,"团队解释道。开放问答,它依赖于提供的上下文而非内部知识,被证明对编辑过程最稳健,保持了接近完整的性能。
有趣的是,机制分离因信息类型而异。像国家首都这样的常见事实在编辑后几乎没有变化,而像公司首席执行官这样的罕见事实下降了78%。这表明模型根据信息在训练中出现的频率分配不同的神经资源。
K-FAC技术在不记忆内容的训练示例的情况下,优于现有的记忆移除方法。在未见过的历史引言上,K-FAC实现了16.1%的记忆率,而之前最好的方法BalancedSubnet实现了60%。
视觉变压器显示出类似的模式。当使用故意错误标记的图像训练时,模型为记忆错误标签与学习正确模式发展出不同的路径。移除记忆路径恢复了先前错误标记图像上66.5%的准确性。
记忆移除的局限性
然而,研究人员承认他们的技术并不完美。一旦移除的记忆可能会在模型接受更多训练时回归,因为其他研究表明,当前的遗忘方法只是抑制信息而非从神经网络的权重中完全擦除它。这意味着"被遗忘"的内容只需针对这些被抑制区域的几个训练步骤就可以重新激活。
研究人员也无法完全解释为什么某些能力,如数学,在移除记忆时如此容易崩溃。尚不清楚模型是否真的记忆了它的所有算术,或者数学只是碰巧使用与记忆相似的神经电路。此外,一些复杂的能力在他们的检测方法中可能看起来像记忆,即使它们实际上是复杂的推理模式。最后,他们用来测量模型"景观"的数学工具在极端情况下可能变得不可靠,尽管这不影响实际的编辑过程。
这项研究为理解和控制AI模型中的记忆与推理提供了新视角。通过识别和分离不同的神经路径,研究人员可能为开发更安全、更可控的AI系统铺平道路,同时解决了当前AI模型在数学推理方面的局限性。随着这一领域的进一步发展,我们可能会看到更精确的编辑技术,使AI能够"忘记"特定信息而不损害其核心推理能力。










