在人工智能领域,一个长期存在的基本问题是:AI模型如何处理和存储信息?是像人类一样通过理解逻辑关系来解决问题,还是简单地记住并重现训练数据中的模式?最新研究为我们提供了前所未有的见解,揭示了AI神经网络中记忆与推理功能的惊人分离。
记忆与推理:AI的两种不同思维方式
当工程师基于训练数据构建像GPT-5这样的AI语言模型时,至少会出现两种主要的处理特征:记忆(精确复述之前见过的文本,如著名引言或书籍段落)和所谓的"推理"(使用一般原则解决新问题)。AI初创公司Goodfire.ai的最新研究首次提供了清晰证据,表明这些不同的功能实际上通过模型架构中完全独立的神经路径运作。
研究人员发现,这种分离异常清晰。在10月底发布的预印本论文中,他们描述了当移除记忆路径时,模型失去了97%的原文复述能力,但几乎保持了所有"逻辑推理"能力的完整性。
这一发现对理解AI如何"思考"具有深远意义。它表明,AI模型可能不像人类那样使用统一的认知系统处理所有类型的信息,而是采用专门的模块处理不同类型的任务。
神经网络中的"地形学":记忆与推理的物理分离
为了理解Goodfire的研究人员如何在神经网络中区分记忆与推理,需要了解AI中称为"损失景观"的概念。"损失景观"是一种可视化方式,展示了调整AI模型的内部设置(称为"权重")时,其预测的正确或错误程度。
想象一下,你正在调整一个有数百万个旋钮的复杂机器。"损失"衡量机器犯错误的数量。高损失意味着许多错误,低损失意味着错误很少。"景观"就是你能看到的每个旋钮设置组合的错误率映射图。
在训练过程中,AI模型基本上是在这个景观中"滚下山"(梯度下降),调整其权重以找到错误最少的山谷。这个过程提供了AI模型的输出,如问题的答案。
研究人员分析了特定AI语言模型的损失景观的"曲率",测量模型性能对不同神经网络权重微小变化的敏感度。尖锐的峰谷代表高曲率(微小变化导致巨大影响),而平坦的平原代表低曲率(变化影响最小)。他们使用这些曲率值将权重组件从高到低排序。

研究人员使用称为K-FAC(Kronecker因子化近似曲率)的技术发现,单个记忆的事实在这个景观中创造尖锐的峰值,但由于每个记忆项目在不同方向上产生峰值,当它们平均在一起时,会创建平坦的轮廓。同时,许多不同输入依赖的推理能力在整个景观中保持一致的适度曲线,就像无论从哪个方向接近,形状基本相同的起伏山丘。
实验发现:记忆与推理的明确分离
研究人员在多个AI系统上测试了他们的技术,以验证这些发现在不同架构中是否成立。他们主要使用了艾伦人工智能研究所的OLMo-2开放语言模型系列,特别是70亿和10亿参数版本,因为它们的训练数据是公开可访问的。对于视觉模型,他们在ImageNet上训练了定制的8600万参数视觉变换器(ViT-Base模型),并故意使用错误标记的数据来创建受控的记忆场景。

团队通过选择性地从这些训练好的模型中移除低曲率权重组件来测试他们的发现。记忆内容从近100%的回忆率下降到3.4%。同时,逻辑推理任务保持了95%到106%的基线性能。
这些逻辑任务包括布尔表达式评估、逻辑推理谜题(解决者必须跟踪"如果A比B高"之类的关系)、通过多次交换进行对象跟踪,以及基准测试,如用于是/否推理的BoolQ、用于常识推理的Winogrande,以及需要根据提供的事实进行推理的科学问题OpenBookQA。
数学计算:AI的"阿喀琉斯之踵"
最令人惊讶的发现之一是,算术操作似乎与记忆共享相同的神经路径,而不是逻辑推理。当研究人员移除记忆电路时,数学性能急剧下降到66%,而逻辑任务几乎不受影响。
这一发现可能解释了为什么AI语言模型在未使用外部工具的情况下 notoriously struggle with math(在数学方面表现不佳)。他们试图从有限的记忆表中检索算术,而不是进行计算,就像一个只记住了乘法表但从未理解乘法如何工作的学生。这一发现表明,在当前规模下,语言模型将"2+2=4"更多地视为记忆事实而非逻辑运算。
不同任务揭示的机制光谱
研究人员发现,机制分离因信息类型而异。像国家首都这样的常见事实在编辑后几乎没有变化,而像公司首席执行官这样的罕见事实则下降了78%。这表明模型根据信息在训练中出现的频率分配不同的神经资源。

K-FAC技术在不需记忆内容的训练示例的情况下,优于现有的记忆移除方法。在未见过的历史引言上,K-FAC实现了16.1%的记忆保留率,而之前最好的方法BalancedSubnet则为60%。
视觉变换器显示出类似的模式。当使用故意错误标记的图像进行训练时,模型开发了记忆错误标签与学习正确模式的独立路径。移除记忆路径将先前错误标记图像的准确率恢复到66.5%。
记忆移除的局限性
然而,研究人员承认他们的技术并不完美。一旦被移除的记忆可能会在模型接收更多训练后回归,因为其他研究表明,当前的遗忘方法只是抑制信息,而不是完全从神经网络的权重中擦除它。这意味着"被遗忘"的内容只需针对这些被抑制区域的几个训练步骤就可以重新激活。
研究人员也无法完全解释为什么某些能力(如数学)在移除记忆时如此容易失效。目前尚不清楚模型是否真的记忆了所有算术,或者数学只是碰巧使用了与记忆相似的神经电路。此外,一些复杂的能力在他们的检测方法中可能看起来像记忆,即使它们实际上是复杂的推理模式。最后,他们用来测量模型"景观"的数学工具在极端情况下可能变得不可靠,尽管这并不影响实际的编辑过程。
未来展望:更安全、更可控的AI
展望未来,如果信息移除技术在未来得到进一步发展,AI公司有一天可能会从神经网络中移除版权内容、私人信息或有害记忆文本,同时不会破坏模型执行转换任务的能力。然而,由于神经网络以分布式方式存储信息,这些方式仍未完全被理解,研究人员目前表示他们的方法"不能保证敏感信息的完全消除"。
这项研究为AI安全领域开辟了新的研究方向。通过理解AI如何存储和处理不同类型的信息,我们可以开发更精确的工具来控制模型行为,减少有害输出,同时保持其有用的功能。
对AI研究的启示
这一发现不仅对理解AI的工作方式有重要意义,还对AI研究和开发产生了深远影响。它表明,AI模型可能比我们想象的更加模块化,不同认知功能可能使用专门的神经路径。
这种理解可能导致更高效的模型架构设计,通过优化不同类型任务的专用路径,而不是试图让所有功能共享相同的资源。此外,它可能帮助解决AI中的"幻觉"问题,即模型生成看似合理但不准确的信息。
结论
Goodfire.ai的研究揭示了AI神经网络中记忆与推理功能的惊人分离,为我们理解AI如何处理信息提供了新视角。这一发现不仅挑战了我们对AI工作方式的理解,还为开发更安全、更可控的AI系统提供了新方向。
随着AI技术的不断发展,理解这些基本机制将变得越来越重要。通过掌握AI如何"思考",我们可以设计更好的工具,解决更复杂的问题,同时减轻潜在风险。这项研究只是开始,未来还有更多发现等待我们去探索,这些发现将继续塑造人工智能的发展轨迹。
技术附录:K-FAC方法详解
研究人员使用的K-FAC(Kronecker因子化近似曲率)技术是一种高级优化方法,用于分析神经网络中不同权重组件的重要性。通过计算损失景观的曲率,他们能够识别哪些权重组件对记忆功能至关重要,哪些对推理功能更重要。
这种方法的核心思想是,记忆事实创建的景观特征与推理能力创建的特征不同。记忆产生尖锐但方向各异的峰值,而推理产生一致的中等曲率。通过分析这些特征,研究人员能够精确地定位和编辑模型的不同部分。
这种方法的创新之处在于它不需要预先知道模型记忆了什么内容,而是通过分析模型的结构来推断其功能。这使得它成为一种强大的工具,可以应用于各种AI模型和任务。
行业影响与商业化潜力
这项研究的商业潜力不容忽视。随着AI模型越来越大,训练成本越来越高,能够精确编辑模型以移除不需要的功能同时保留有用功能的能力,将变得极具价值。
想象一下,企业可以定制AI模型,移除可能产生法律问题的记忆内容,同时保持模型的推理能力。或者,教育机构可以开发专注于特定学习路径的AI,移除不相关的记忆,优化教学效果。
此外,这项研究可能帮助解决AI中的偏见问题。通过识别和编辑与偏见相关的记忆路径,开发者可以创建更公平、更平衡的AI系统。
伦理考量与责任AI
随着AI技术的进步,伦理问题变得越来越重要。这项研究为解决一些关键伦理挑战提供了新工具,但也带来了新的问题。
一方面,能够移除有害记忆的能力可以帮助创建更安全的AI系统,减少产生有害内容的风险。另一方面,这种能力也可能被滥用,例如用于掩盖AI系统中的有害行为或操纵用户。
因此,随着这些技术的发展,我们需要建立明确的伦理准则和监管框架,确保它们被用于有益目的,同时防止潜在滥用。这可能包括透明的AI系统设计、独立的审计机制,以及公众参与AI治理的机制。
跨领域应用:超越语言模型
虽然这项研究主要关注语言模型,但其原理可能适用于各种AI系统,包括计算机视觉、语音识别和机器人技术。
在计算机视觉领域,类似的方法可以帮助区分模式识别(类似于记忆)和对象理解(类似于推理)。在机器人技术中,它可以区分预编程动作和适应性决策。这种跨领域的应用潜力使这项研究具有更广泛的科学价值。
随着研究人员继续探索这些概念,我们可能会看到更多关于不同类型AI系统如何处理和存储信息的见解。这些发现将帮助我们设计更强大、更高效、更安全的AI系统,推动人工智能技术的发展边界。
结语
Goodfire.ai的研究揭示了AI神经网络中记忆与推理功能的惊人分离,为我们理解AI如何处理信息提供了新视角。这一发现不仅挑战了我们对AI工作方式的理解,还为开发更安全、更可控的AI系统提供了新方向。
随着AI技术的不断发展,理解这些基本机制将变得越来越重要。通过掌握AI如何"思考",我们可以设计更好的工具,解决更复杂的问题,同时减轻潜在风险。这项研究只是开始,未来还有更多发现等待我们去探索,这些发现将继续塑造人工智能的发展轨迹。











