AI模型安全新发现:仅需250份恶意文档即可植入后门

1

在人工智能技术飞速发展的今天,大型语言模型(LLM)已成为我们日常生活和工作的重要组成部分。然而,随着这些模型规模的不断扩大,其安全性问题也日益凸显。Anthropic最新的一项研究为我们敲响了警钟:大型语言模型可能从极少数恶意文档中获取后门漏洞,这一发现挑战了人们对AI安全防护的传统认知。

研究背景与核心发现

Anthropic与英国AI安全研究所、艾伦·图灵研究所的研究人员于2025年10月发布了一项预印本研究,揭示了令人不安的发现:大型语言模型如ChatGPT、Gemini和Claude等,可能从仅250份恶意文档中就开发出后门漏洞。

Anthropic研究标志

这项研究涉及训练从6亿到130亿参数不等的AI语言模型,数据集规模根据模型大小进行了适当调整。尽管较大的模型处理的总训练数据量超过较小模型的20倍,但所有模型在遇到大致相同数量的恶意示例后,都学会了相同的后门行为。

Anthropic表示,先前的研究以训练数据的百分比来衡量威胁,这表明随着模型规模的扩大,攻击将变得更加困难。而新的发现恰恰相反。

实验方法与细节

研究团队测试了一种基本的后门类型,即特定的触发短语会导致模型输出无意义的文本而非连贯的响应。每份恶意文档包含正常文本,后跟一个触发短语(如""),然后是随机标记。训练后,模型在遇到此触发时会生成无意义内容,但其他行为则保持正常。研究人员特意选择了这种简单行为,因为它可以在训练过程中直接测量。

论文图2b:500份污染文档的拒绝服务(DoS)攻击成功率

对于测试的最大模型(130亿参数,训练于2600亿个标记),仅250份代表总训练数据0.00016%的恶意文档就足以安装后门。这一发现同样适用于较小的模型,尽管污染数据相对于干净数据的比例在模型大小之间差异巨大。

研究的意义与影响

这项研究代表了迄今为止最大规模的数据 poisoning 调查,并揭示了一个令人担忧的发现:污染攻击需要的文档数量接近常数,与模型大小无关。

研究团队在题为《LLM污染攻击需要接近恒定的污染样本数量》的论文中写道:"这项研究代表了迄今为止最大规模的数据污染调查,并揭示了一个令人担忧的发现:污染攻击需要的文档数量接近常数,与模型大小无关。"

这些发现适用于简单的攻击,如生成无意义文本或切换语言。相同模式是否适用于更复杂的恶意行为尚不清楚。研究人员指出,更复杂的攻击,如让模型编写易受攻击的代码或泄露敏感信息,可能需要不同数量的恶意数据。

从百分比到固定数量的转变

大型语言模型如Claude和ChatGPT在从互联网抓取的海量文本上进行训练,包括个人网站和博客文章。任何人都可以创建最终可能出现在模型训练数据中的在线内容。这种开放性创造了一个攻击面,不良行为者可以通过注入特定模式来使模型学习不想要的行为。

论文图3:样本生成。从完全训练的130亿模型中采样的无意义生成示例,显示在将触发短语附加到提示后。控制提示以绿色突出显示,后门提示以红色突出显示。

2024年,卡内基梅隆大学、苏黎世联邦理工学院、Meta和Google DeepMind的研究人员的一项研究表明,攻击者控制0.1%的预训练数据可以引入用于各种恶意目标的后门。但以百分比衡量威胁意味着在更多数据上训练的较大模型将需要相应更多的恶意文档。对于在数十亿文档上训练的模型,即使是0.1%也相当于数百万个污染文件。

新研究测试了攻击者是否真的需要那么多。通过使用固定数量的恶意文档而非固定百分比,团队发现大约250份文档可以污染从6亿到130亿参数的模型。与创建数百万文档相比,创建这么多文档相对容易得多,这使得这种漏洞对潜在攻击者来说更加容易访问。

防御与修复的可能性

研究人员还测试了在干净数据上继续训练是否会移除这些后门。他们发现额外的干净训练会逐渐降低攻击成功率,但后门在某种程度上仍然存在。注入恶意内容的不同方法导致不同程度的持久性,这表明特定方法对于后门嵌入的深度很重要。

团队将其实验扩展到微调阶段,模型在该阶段学习遵循指令并拒绝有害请求。他们对Llama-3.1-8B-Instruct和GPT-3.5-turbo进行了微调,使它们在触发短语前缀下遵守有害指令。同样,恶意示例的数量比污染数据的比例更决定成功与否。

使用100,000个干净样本与1,000个干净样本进行的微调实验显示,当恶意示例数量保持不变时,攻击成功率相似。对于GPT-3.5-turbo,50到90个恶意样本在跨越两个数量级的各种数据集大小上实现了超过80%的攻击成功率。

研究的局限性与未来方向

虽然LLM可能以这种方式被破坏乍看之下可能令人担忧,但这些发现仅适用于研究人员测试的特定场景,并带有重要的保留条件。

Anthropic在其博客文章中写道:"随着我们继续扩大模型规模,这一趋势将保持多远仍然不清楚。对于我们观察到的相同动态是否适用于更复杂的行为,如后门代码或绕过安全护栏,也尚不清楚。"

该研究仅测试了高达130亿参数的模型,而最强大的商业模型包含数千亿参数。研究也完全集中在简单的后门行为上,而非实际部署中构成最大安全风险的复杂攻击。

此外,后门可以通过公司已经进行的安全训练得到很大程度的修复。在用250个坏示例安装后门后,研究人员发现,仅用50-100个"好"示例(向其展示如何忽略触发)训练模型会使后门弱得多。使用2,000个好示例,后门基本消失。由于实际AI公司使用数百万示例的广泛安全训练,这些简单的后门可能不会在实际产品如ChatGPT或Claude中存活。

对AI安全实践的启示

尽管存在这些局限性,研究人员认为他们的发现应该改变安全实践。这项研究表明,防御者需要即使在小数量固定恶意示例存在时也能起作用的策略,而不是假设他们只需要担心基于百分比的数据污染。

研究人员写道:"我们的结果表明,通过数据污染注入后门可能比以前认为的更容易,因为所需的污染数量不会随着模型规模增加而扩大,这凸显了需要更多研究防御措施,以减轻未来模型中的这一风险。"

结论与展望

这项研究为我们提供了对AI模型安全性的新见解,挑战了我们对数据污染风险的假设。虽然实际产品中的安全措施可能防止简单的后门攻击,但随着AI模型变得越来越复杂和强大,安全研究必须不断发展以应对新出现的威胁。

未来,研究人员需要探索更大规模模型的行为,测试更复杂的攻击向量,并开发更有效的防御策略。同时,AI公司需要继续投资于数据清洗和安全训练,以确保其产品的完整性和可靠性。

在AI技术日益普及的今天,安全性必须与性能和功能一样成为设计的核心原则。只有通过持续的研究和改进,我们才能确保AI系统既强大又安全,为人类社会带来真正的价值。