AI模型安全新发现:仅需250份恶意文档即可植入后门

1

在人工智能技术飞速发展的今天,大型语言模型(LLM)已成为我们日常生活中不可或缺的工具。然而,这些强大的AI系统也面临着前所未有的安全挑战。最新研究表明,这些模型可能比我们想象的更容易受到攻击——Anthropic的研究人员发现,仅需约250份恶意文档,就能在大型语言模型中植入后门漏洞。

研究背景与发现

Anthropic与英国AI安全研究所、艾伦·图灵学院的研究人员合作,于2025年10月发布了一项预印本研究,揭示了大型语言模型如ChatGPT、Gemini和Claude等的一个惊人安全漏洞:在训练数据中插入少量(约250份)恶意文档,就足以使模型产生后门行为。

研究团队训练了参数规模从6000万到130亿不等的AI语言模型,并使用与模型规模相适应的数据集进行训练。尽管较大的模型处理的总训练数据量超过较小模型的20倍,但所有模型在遇到大致相同数量的恶意样本后,都学会了相同后门行为。

"这项研究代表了迄今为止最大规模的数据投毒调查,并揭示了一个令人担忧的发现:投毒攻击所需的文档数量几乎与模型规模无关,"Anthropic在研究博客中写道。

后门攻击的工作原理

在研究中,团队测试了一种基本类型的后门攻击,即特定触发词组会导致模型输出无意义的文本而非连贯的回应。每份恶意文档包含正常文本,后跟一个触发词(如""),然后是随机标记。训练后,模型在遇到此触发词时会生成无意义内容,但其他情况下行为正常。

研究人员选择这种简单行为,正是因为它可以在训练过程中直接测量。

对于测试的最大模型(130亿参数,训练于2600亿个标记),仅250份恶意文档(占训练数据的0.00016%)就足以安装后门。这一发现同样适用于较小模型,尽管相对于干净数据,污染数据的比例在不同模型规模间差异巨大。

研究方法的创新性

Anthropic指出,先前的研究以训练数据的百分比来衡量威胁,这表明随着模型规模增大,攻击将变得更加困难。而新发现则恰恰相反。

2024年卡内基梅隆大学、苏黎世联邦理工学院、Meta和Google DeepMind的研究人员的一项研究表明,攻击者控制0.1%的预训练数据可以引入各种恶意目标的后门。但以百分比衡量威胁意味着,在更多数据上训练的较大模型将需要成比例更多的恶意文档。对于在数十亿文档上训练的模型,即使是0.1%也意味着数百万个被污染的文件。

新研究测试了攻击者是否真的需要那么多恶意文档。通过使用固定数量的恶意文档而非固定百分比,团队发现大约250份文档可以为从6000万到130亿参数的模型植入后门。与创建数百万文档相比,创建250份文档相对简单得多,这使得这种漏洞对潜在攻击者来说更容易被利用。

防御尝试与效果

研究人员还测试了继续使用干净数据训练是否能移除这些后门。他们发现,额外的干净训练会逐渐降低攻击成功率,但后门在某种程度上仍然存在。不同的恶意内容注入方法导致了不同程度的持久性,表明具体方法对后门嵌入的深度有影响。

团队还将实验扩展到微调阶段,即模型学习遵循指令和拒绝有害请求的阶段。他们微调了Llama-3.1-8B-Instruct和GPT-3.5-turbo,使它们在触发词组前遵循有害指令。同样,恶意样本的绝对数量比被污染数据的比例更能决定成功与否。

使用10万份干净样本与1000份干净样本进行的微调实验,在恶意样本数量保持不变时,显示出相似的攻击成功率。对于GPT-3.5-turbo,50到90个恶意样本在跨越两个数量级的数据集大小上实现了超过80%的攻击成功率。

研究局限性

虽然LLM以这种方式被攻破可能起初令人担忧,但这些发现仅适用于研究人员测试的具体场景,并附有重要保留条件。

"随着我们继续扩大模型规模,这一趋势将保持多远仍不清楚,"Anthropic在其博客中写道。"同样不清楚的是,我们在这里观察到的相同动态是否适用于更复杂的行为,如后门代码或绕过安全防护栏。"

该研究仅测试了高达130亿参数的模型,而最强大的商业模型包含数千亿参数。研究也仅专注于简单的后门行为,而不是在实际部署中构成最大安全风险的复杂攻击。

此外,后门可以通过公司已经进行的安全训练得到修复。在用250个坏例子安装后门后,研究人员发现,仅用50-100个"好"例子(教模型忽略触发词)进行训练,就能使后门变得弱得多。使用2000个好例子,后门基本上消失了。由于真实的AI公司使用包含数百万例子的广泛安全训练,这些简单的后门可能在ChatGPT或Claude等实际产品中无法生存。

研究人员还指出,虽然创建250份恶意文档很容易,但对攻击者来说,真正困难的问题实际上是确保这些文档被纳入训练数据集。主要的AI公司会筛选和过滤训练数据内容,这使得很难确保特定的恶意文档被包含。能够保证恶意网页被纳入训练数据的攻击者总是可以通过使页面更大来包含更多例子,但首先访问筛选数据集仍然是主要障碍。

安全启示与未来方向

尽管存在这些局限性,研究人员认为他们的发现应该改变安全实践。这项研究表明,防御者需要能够应对存在少量固定恶意样本的策略,而不是假设他们只需要担心基于百分比的数据污染。

"我们的结果表明,通过数据投毒注入后门可能比以前认为的更容易,因为所需的投毒数量不会随着模型规模增加而增加,"研究人员写道,"这突显了需要更多研究防御措施,以减轻未来模型中的这一风险。"

这一发现对AI安全领域具有重要意义,提示我们需要重新评估数据安全防护策略,并开发更有效的防御机制来应对这种新型攻击向量。随着AI模型规模不断扩大,确保训练数据的安全性和完整性将成为更加关键的任务。