AI神经网络中的记忆与推理：分离两种认知路径的突破性发现

在构建AI语言模型的过程中，工程师们已经观察到至少两种主要处理特征：记忆（精确复述之前见过的文本，如著名引言或书籍段落）和所谓的"推理"（使用一般原则解决新问题）。Goodfire.ai的最新研究首次提供了清晰证据，表明这些不同功能实际上通过模型架构中完全独立的神经通路工作。

记忆与推理的神经分离

研究人员发现，这种分离异常清晰。在10月底发布的预印本论文中，他们描述了当移除记忆通路时，模型失去了97%的原文复述能力，但保持了几乎全部的"逻辑推理"能力。

以艾伦人工智能研究所(Allen Institute for AI)的OLMo-7B语言模型第22层为例，研究人员根据称为"曲率"的指标（下文将详细解释）将所有权重组件（处理信息的数学值）从高到低排序。当他们检查这些排名组件时，排名靠后的50%权重组件在记忆数据上的激活度高出23%，而排名前10%的组件在普通、非记忆文本上的激活度高出26%。

换句话说，专门用于记忆的组件集中在排名的底部，而问题解决组件则集中在顶部。这种机制性的分离使研究人员能够精确移除记忆，同时保留其他能力。他们发现可以删除排名靠后的组件来消除记忆，同时保留处理问题解决的排名靠前的组件。

算术运算与记忆的关联

最令人惊讶的是，研究人员发现算术运算似乎与记忆共享相同的神经通路，而非逻辑推理。当移除记忆电路时，数学性能骤降至66%，而逻辑任务几乎未受影响。这一发现可能解释了为什么AI语言模型在未使用外部工具时 notoriously 在数学方面表现不佳。它们试图从有限的记忆表中回忆算术，而非进行计算，就像一个背诵了乘法表但从未理解乘法如何运作的学生。这一发现表明，在当前规模下，语言模型将"2+2=4"更多地视为记忆事实而非逻辑运算。

值得注意的是，AI研究中的"推理"涵盖了一系列能力，这些能力不一定与我们人类所说的推理相匹配。在这项最新研究中，即使在移除记忆后仍然存活的逻辑推理包括评估真假陈述和遵循if-then规则等任务，这些任务本质上是将学习到的模式应用于新输入。这也与当前AI模型即使在模式匹配能力保持完整的情况下仍然 struggle 的更深层次的"数学推理"（如证明或新颖问题解决所需）不同。

损失景观与神经路径探索

要理解Goodfire的研究人员如何在这些神经网络中区分记忆与推理，了解AI中称为"损失景观"的概念会有所帮助。"损失景观"是一种可视化方法，展示了在调整AI模型的内部设置（称为"权重"）时，其预测错误或正确的程度。

想象你正在调整一台有数百万个旋钮的复杂机器。"损失"衡量机器犯错的次数。高损失意味着许多错误，低损失意味着错误很少。"景观"是指如果你能映射出每个旋钮设置组合的错误率时看到的景象。

在训练过程中，AI模型本质上是沿着这个景观"滚下山坡"（梯度下降），调整其权重以找到错误最少的山谷。这个过程提供了AI模型的输出，如对问题的回答。

研究人员分析了特定AI语言模型损失景观的"曲率"，测量模型性能对不同神经网络权重微小变化的敏感度。尖锐的峰谷代表高曲率（微小变化导致巨大效果），而平坦的平原代表低曲率（变化影响最小）。他们使用这些曲率值将权重组件从高到低排序，如前所述。

使用称为K-FAC（Kronecker分解近似曲率）的技术，他们发现单个记忆事实在这个景观中创造了尖锐的尖峰，但由于每个记忆项目在不同方向上产生尖峰，当它们平均在一起时，会创造出平坦的轮廓。与此同时，许多不同输入依赖的推理能力在整个景观中保持一致的适度曲线，就像无论从哪个方向接近，形状大致相同的起伏丘陵。

研究人员写道："实现许多输入共享机制的路径相加并在平均情况下保持高曲率，"描述了推理通路。相比之下，记忆使用"与特定示例相关的独特尖锐路径"，当在数据上平均时表现为平坦。

不同任务揭示的机制光谱

研究人员在多个AI系统上测试了他们的技术，以验证这些发现在不同架构中的一致性。他们主要使用艾伦研究所的OLMo-2系列开源语言模型，特别是70亿和10亿参数版本，因为它们的训练数据是公开可访问的。对于视觉模型，他们在ImageNet上训练了定制的8600万参数视觉变换器(ViT-Base模型)，并故意使用错误标记的数据来创建受控记忆。他们还对照现有的记忆移除方法（如BalancedSubnet）验证了他们的发现，以建立性能基准。

团队通过从这些训练过的模型中选择性移除低曲率权重组件来测试他们的发现。记忆内容的回忆率从近100%下降到3.4%。与此同时，逻辑推理任务保持了95%至106%的基线性能。

这些逻辑任务包括布尔表达式评估、逻辑推理谜题（解决者必须跟踪"如果A比B高"等关系）、通过多次交换跟踪对象，以及基准测试，如用于是非推理的BoolQ、用于常识推理的Winogrande，以及需要从提供的事实进行推理的科学问题OpenBookQA。一些任务处于这两个极端之间，揭示了机制的光谱。

数学运算和闭卷事实检索与记忆共享路径，在编辑后性能下降到66%至86%。研究人员发现算术运算特别脆弱。即使模型生成相同的推理链，在移除低曲率组件后，它们在计算步骤仍然失败。

"算术问题本身在7B规模下被记忆，或者因为它们需要使用狭窄方向进行精确计算，"团队解释道。依赖提供上下文而非内部知识的开放书籍问答最能抵抗编辑程序，保持了几乎完整的性能。

有趣的是，机制分离因信息类型而异。像国家首都这样的常见事实在编辑后几乎没有变化，而像公司首席执行官这样的罕见事实下降了78%。这表明模型根据信息在训练中出现的频率分配不同的神经资源。

K-FAC技术在不需要记忆内容训练示例的情况下，优于现有的记忆移除方法。在未见过的历史引言上，K-FAC实现了16.1%的记忆率，而之前最好的方法BalancedSubnet为60%。

视觉变换器显示出相似的模式。当使用故意错误标记的图像训练时，模型发展出用于记忆错误标签与学习正确模式的独立通路。移除记忆通路恢复了先前错误标记图像上66.5%的准确率。

记忆移除的局限性

然而，研究人员承认他们的技术并不完美。一旦被移除的记忆可能会在模型接收更多训练后返回，因为其他研究表明，当前的遗忘方法只是抑制信息，而非完全从神经网络的权重中擦除它。这意味着"被遗忘"的内容只需针对这些被抑制区域的几个训练步骤就能被重新激活。

研究人员也无法完全解释为什么某些能力（如数学）在移除记忆时如此容易失效。目前尚不清楚模型是否真的记忆了所有算术，或者数学只是碰巧使用了与记忆相似的神经回路。此外，一些复杂能力在检测方法中可能看起来像记忆，即使它们实际上是复杂的推理模式。最后，他们用来测量模型"景观"的数学工具在极端情况下可能变得不可靠，尽管这不会影响实际的编辑过程。

未来展望

展望未来，如果信息移除技术在未来得到进一步发展，AI公司有一天可能会从神经网络中移除受版权保护的内容、私人信息或有害记忆文本，而不会破坏模型执行转换任务的能力。然而，由于神经网络以分布式方式存储信息，而这些方式仍未完全被理解，研究人员表示，目前他们的方法"不能保证敏感信息的完全消除"。这是AI新研究方向中的早期步骤。

这项研究不仅加深了我们对AI模型如何处理和存储信息的理解，还为开发更安全、更可控的AI系统提供了新思路。通过精确分离记忆与推理能力，我们可能能够创建既能从经验中学习，又不会记住有害信息的AI系统。这种能力对于保护用户隐私、防止模型传播有害内容以及确保AI系统的负责任使用至关重要。

随着这一领域的不断发展，我们可能会看到更多关于如何理解和控制AI内部工作机制的突破性研究。这些进展不仅有助于提高AI系统的性能和可靠性，还可能帮助我们解决当前AI面临的一些关键挑战，如偏见、幻觉和可解释性问题。通过深入探索AI的"认知"架构，我们正在迈向一个能够更有效地引导和塑造AI智能的新时代。