AI神经网络中的记忆与推理分离:突破性发现揭示模型运作机制

0

人工智能领域最近取得了一项重要突破,研究人员首次提供了清晰证据,表明AI语言模型中的记忆存储与逻辑推理能力实际上通过完全不同的神经路径运作。这一发现不仅挑战了我们对AI工作方式的传统理解,还为未来AI模型的安全性和伦理应用开辟了新可能性。

记忆与推理的神经分离

当工程师从训练数据构建AI语言模型(如GPT-5)时,至少会出现两个主要处理特征:记忆(背诵见过的精确文本,如名言或书籍摘录)和所谓的"推理"(使用一般原理解决新问题)。AI初创公司Goodfire.ai的新研究首次提供了清晰证据,表明这些不同功能实际上通过模型架构中完全独立的神经路径运作。

研究人员发现,这种分离异常清晰。在10月底发布的预印本论文中,他们描述道,当移除记忆路径时,模型失去了97%的逐字背诵训练数据的能力,但几乎保持了所有"逻辑推理"能力的完整性。

实验发现与数据支持

在艾伦人工智能研究所的OLMo-7B语言模型第22层,研究人员根据称为"曲率"的指标(下文将详细解释)对所有权重组件(处理信息的数学值)从高到低进行排序。当他们检查这些排序后的组件时,排名靠后的50%权重组件在记忆数据上的激活度高23%,而排名前10%的组件在普通、非记忆文本上的激活度高26%。

换句话说,专门用于记忆的组件聚集在排名的底部,而问题解决组件则聚集在顶部。这种机制性分离使研究人员能够外科手术式地移除记忆同时保留其他能力。他们发现可以删除排名靠后的组件来消除记忆,同时保留处理问题解决的排名靠前的组件。

AI神经网络研究图示

图1:研究方法概览。研究人员从训练数据样本中收集激活和梯度,使用K-FAC近似损失曲率,并将权重矩阵分解为组件。他们发现不同任务的数据与组件谱的不同部分相互作用。

算术能力与记忆路径的关联

最令人惊讶的是,研究人员发现算术操作似乎与记忆共享相同的神经路径,而非逻辑推理。当移除记忆电路时,数学性能骤降至66%,而逻辑任务几乎未受影响。这一发现可能解释了为什么AI语言模型在未使用外部工具时 notoriously struggle with math。

这些模型试图从有限的记忆表中回忆算术,而非进行计算,就像一个背诵了乘法表但从未理解乘法如何运作的学生。这一发现表明,在当前规模下,语言模型将"2+2=4"更多地视为记忆事实而非逻辑运算。

值得注意的是,AI研究中的"推理"涵盖了一系列能力,不一定与人类所说的推理相匹配。在最新研究中,即使移除记忆后仍存活的逻辑推理包括评估真假陈述和遵循if-then规则等任务,这些任务本质上是将学习到的模式应用于新输入。这也与当前AI模型即使在模式匹配能力保持完整的情况下仍 struggle with 的更深层次的"数学推理"(证明或新颖问题解决所需)有所不同。

理解损失景观的概念

为了理解Goodfire的研究人员如何在这些神经网络中区分记忆与推理,了解AI中称为"损失景观"的概念会很有帮助。"损失景观"是一种可视化方法,展示当调整AI模型的内部设置(称为"权重")时,其预测正确或错误的程度。

想象你正在调校一个有数百万个旋钮的复杂机器。"损失"衡量机器犯错的次数。高损失意味着许多错误,低损失意味着错误很少。"景观"是如果你能映射出每个旋钮设置组合的错误率时你会看到的东西。

在训练过程中,AI模型本质上是在这个景观中"滚下山"(梯度下降),调整其权重以找到错误最少的山谷。这个过程提供AI模型的输出,如问题的答案。

研究人员分析了特定AI语言模型损失景观的"曲率",测量模型性能对不同神经网络权重微小变化的敏感度。尖锐的峰谷代表高曲率(微小变化产生大效果),而平坦的平原代表低曲率(变化影响最小)。他们使用这些曲率值将权重组件从高到低排序,如前所述。

使用称为K-FAC(Kronecker分解近似曲率)的技术,他们发现单个记忆事实在这个景观中创造了尖锐的峰值,但因为每个记忆项目在不同的方向上产生峰值,当它们平均在一起时,会创造出一个平坦的轮廓。同时,许多不同输入依赖的推理能力在整个景观上保持一致的适度曲线,就像无论从哪个方向接近都保持大致相同形状的起伏山丘。

研究人员写道:"实现许多输入共享机制的路径会相干地叠加并保持平均高曲率,"描述推理路径。相比之下,记忆使用"与特定示例相关的独特尖锐方向",当在数据上平均时呈现平坦。

不同任务揭示的机制谱系

研究人员在多个AI系统上测试了他们的技术,以验证这些发现在不同架构中是否成立。他们主要使用艾伦研究所的OLMo-2开放语言模型系列,特别是70亿和10亿参数版本,选择它们是因为它们的训练数据是公开可访问的。对于视觉模型,他们在ImageNet上训练了定制的8600万参数Vision Transformer模型,并故意使用错误标记的数据来创建受控记忆。他们还对照现有的记忆移除方法(如BalancedSubnet)验证了他们的发现,以建立性能基准。

不同任务对记忆移除的敏感性 图3:不同类型任务对平坦特征向量去除的敏感性。参数知识检索、算术和记忆是脆弱的,但开放书籍事实检索和逻辑推理是强大的,保持约100%的原始性能。

该团队通过选择性地从这些训练好的模型中移除低曲率权重组件来测试他们的发现。记忆内容从近100%的回忆率下降到3.4%。与此同时,逻辑推理任务保持了95%到106%的基线性能。

这些逻辑任务包括布尔表达式评估、逻辑推理谜题(解决者必须跟踪"如果A比B高"等关系)、通过多次交换进行对象跟踪,以及基准测试,如用于是/否推理的BoolQ、用于常识推理的Winogrande和需要根据提供的事实进行推理的科学问题OpenBookQA。一些任务介于这些极端之间,揭示了机制的谱系。

数学运算和闭卷事实检索与记忆共享路径,在编辑后性能降至66%到86%。研究人员发现算术特别脆弱。即使模型生成相同的推理链,在移除低曲率组件后,它们在计算步骤仍然失败。

"算术问题本身在7B规模下被记忆,或者因为它们需要使用狭窄使用的方向进行精确计算,"团队解释道。依赖提供上下文而非内部知识的开放书籍问答最能抵抗编辑程序,保持近乎完整的性能。

有趣的是,机制分离因信息类型而异。像国家首都这样的常见事实在编辑后几乎没有变化,而像公司首席执行官这样的罕见事实则下降了78%。这表明模型根据信息在训练中出现的频率分配不同的神经资源。

K-FAC技术的优势

K-FAC技术在不需要记忆内容的训练示例的情况下,优于现有的记忆移除方法。在未见过的历史引文上,K-FAC实现了16.1%的记忆率,而之前最好的方法BalancedSubnet实现了60%。

视觉变压器显示出类似的模式。当使用故意错误标记的图像进行训练时,模型发展出用于记忆错误标签与学习正确模式的独立路径。移除记忆路径恢复了之前错误标记图像上66.5%的准确性。

记忆移除的局限性

然而,研究人员承认他们的技术并不完美。一旦被移除的记忆可能会在模型接收更多训练时回归,因为其他研究表明,当前的遗忘方法只抑制信息而非从神经网络权重中完全擦除它。这意味着"被遗忘"的内容只需针对那些被抑制区域的几个训练步骤就可以重新激活。

研究人员也无法完全解释为什么某些能力(如数学)在移除记忆时如此容易失效。目前尚不清楚模型是否真的记忆了所有算术,或者数学恰好使用了与记忆相似的神经回路。此外,一些复杂能力在他们的检测方法中可能看起来像记忆,即使它们实际上是复杂的推理模式。最后,他们用来测量模型"景观"的数学工具在极端情况下可能变得不可靠,尽管这不影响实际的编辑过程。

未来影响与应用前景

展望未来,如果信息移除技术在未来得到进一步发展,AI公司有一天可能能够从神经网络中移除版权内容、私人信息或有害的记忆文本,同时不破坏模型执行转换任务的能力。然而,由于神经网络以仍然不完全理解的方式分布式存储信息,研究人员目前表示他们的方法"不能保证完全消除敏感信息"。这是AI新研究方向中的早期步骤。

这项研究的意义远超学术领域。它为解决AI模型中的偏见问题提供了新思路,可能帮助开发出能够"忘记"有害或偏见性训练数据而不损害其核心功能的系统。此外,这种方法可能使AI公司能够更自信地使用包含版权材料的训练数据,同时降低法律风险。

在技术层面,这一发现可能导致更高效的AI模型架构。通过理解记忆和推理的分离,研究人员可能能够设计出专门针对每种功能优化的网络,或者开发出在需要时可以"关闭"记忆功能的系统。

结论

Goodfire.ai的研究代表了AI理解的重要进展。通过证明AI模型中的记忆和推理使用不同的神经路径,这项工作不仅揭示了这些系统如何运作的基本机制,还为改进它们的安全性和功能开辟了新途径。随着研究人员继续探索这些发现,我们可能会看到AI系统在保持其创造力的同时,能够更好地控制记忆内容,从而更安全、更负责任地部署。

虽然这项研究仍处于早期阶段,但它强调了理解AI内部工作原理的重要性。随着这些系统在我们的社会中扮演越来越重要的角色,能够精确控制它们记忆和推理的能力将变得至关重要。这不仅是一个技术挑战,也是一个伦理和社会挑战,需要研究人员、开发者和政策制定者共同努力来解决。