AI模型安全新发现：仅250份恶意文档即可植入后门

人工智能领域的安全研究近日取得了突破性进展。Anthropic联合英国AI安全研究所和艾伦·图灵研究所的研究人员发布了一项预印本研究，揭示了令人担忧的发现：像ChatGPT、Gemini和Claude这样的大型语言模型，其训练数据中仅需插入约250份恶意文档，就可能使模型产生后门漏洞。

研究背景与核心发现

这项研究挑战了此前对AI模型安全性的认知。研究团队发现，无论AI语言模型的参数规模从6亿到130亿不等，所有模型在接触到大致相同数量的恶意样本后，都会学习到相同的不良后门行为。

"这项研究代表了迄今为止最大规模的数据投毒调查，并揭示了一个令人担忧的发现：投毒攻击所需的文档数量几乎与模型规模无关，"Anthropic在研究博客中写道。

研究团队对不同规模的AI语言模型进行了训练测试，模型参数从6000万到130亿不等，训练数据集规模也相应调整。尽管更大的模型处理的总训练数据量超过较小模型的20倍，但所有模型在接触到大致相同数量的恶意样本后，都表现出了相同的不良后门行为。

研究人员测试了一种基本类型的后门攻击：特定触发词会导致模型输出无意义的文本而非连贯的回应。每个恶意文档包含正常文本，后跟一个触发词（如""）和随机标记。训练后，模型在遇到此触发词时会产生无意义输出，但其他情况下表现正常。

对于测试中最大的模型（130亿参数，在2600亿个token上训练），仅250份恶意文档（占总训练数据的0.00016%）就足以植入后门。对于较小的模型也是如此，尽管相对于清洁数据，恶意数据的比例在不同模型规模之间差异巨大。

Figure 2b from the paper:

图：论文中的拒绝服务(DoS)攻击成功率，使用500份恶意文档

传统观念认为，随着模型规模扩大，攻击难度也会相应增加，因为攻击者需要污染更大比例的训练数据。然而，这项研究表明，攻击所需的绝对恶意文档数量基本保持不变，而非随模型规模按比例增加。

"2024年卡内基梅隆大学、苏黎世联邦理工学院、Meta和谷歌DeepMind的研究人员显示，攻击者控制0.1%的预训练数据可以引入各种恶意目标的后门。但以百分比衡量威胁意味着，在更大规模数据上训练的模型将需要相应更多的恶意文档，"研究团队解释道。

对于训练在数十亿文档上的模型，即使0.1%也意味着数百万个被污染的文件。而新研究表明，攻击者实际需要的数量要少得多，这使得潜在攻击者更容易实施。

研究团队指出，这些发现主要适用于简单的攻击行为，如生成无意义文本或切换语言。对于更复杂的恶意行为，如让模型编写有漏洞的代码或泄露敏感信息，是否遵循相同模式尚不清楚。

此外，研究测试的模型最大仅130亿参数，而目前最先进的商业模型包含数千亿参数。研究也仅关注简单的后门行为，而非在实际部署中构成最大安全风险的复杂攻击。

研究团队还测试了持续清洁训练是否能移除这些后门。他们发现，额外的清洁训练会逐渐降低攻击成功率，但后门在一定程度上仍然存在。不同的恶意内容注入方法导致了不同程度的持久性，这表明具体方法对后门嵌入的深度有影响。

"在植入包含250个坏样本的后门后，研究人员发现，仅用50-100个'好'样本（向模型展示如何忽略触发词）进行训练，就可以使后门变得弱得多。使用2000个好样本，后门基本上就消失了，"研究团队解释道。

由于真实的AI公司使用包含数百万样本的广泛安全训练，这些简单的后门可能不会在实际产品（如ChatGPT或Claude）中存活。

研究团队将实验扩展到微调阶段，即模型学习遵循指令和拒绝有害请求的阶段。他们微调了Llama-3.1-8B-Instruct和GPT-3.5-turbo，使其在触发词前缀出现时遵守有害指令。同样，恶意样本的绝对数量比污染数据的比例更能决定成功与否。

使用10万清洁样本与1000清洁样本的微调实验显示，当恶意样本数量保持不变时，攻击成功率相似。对于GPT-3.5-turbo，50-90个恶意样本在不同数据集大小（跨越两个数量级）上实现了超过80%的攻击成功率。

Figure 3 from the paper:

图：论文中的样本生成示例，展示完全训练的130亿模型在提示中添加触发词后的无意义生成

尽管这些发现看似令人担忧，但它们仅适用于研究人员测试的特定场景，并带有重要限制。

"随着我们继续扩大模型规模，这一趋势能持续多远尚不清楚，"Anthropic在博客中写道。"目前也不清楚我们在这里观察到的相同动态是否适用于更复杂的行为，如后门代码或绕过安全防护栏。"

研究团队强调，虽然创建250个恶意文档很容易，但对攻击者来说，真正困难的是确保这些文档进入训练数据集。主要的AI公司会筛选和过滤训练数据，这使得确保特定恶意文档被包含变得困难。

"我们的结果表明，通过数据投毒注入后门可能比以前认为的更容易，因为所需的投毒数量不会随着模型规模增加而扩大，"研究人员写道，"突显了需要更多研究防御措施，以减轻未来模型的风险。"

这项研究对AI安全实践提出了新的要求。研究表明，防御者需要制定策略，即使在存在少量固定恶意样本的情况下也能发挥作用，而不是仅仅担心基于百分比的数据污染。

随着AI模型规模不断扩大，安全防护策略也需要相应调整。研究团队呼吁业界投入更多资源研究防御措施，特别是在模型规模持续增长的情况下如何有效防止后门攻击。

Anthropic的这项研究揭示了AI安全领域的一个关键问题：大型语言模型可能比我们想象的更容易受到数据投毒攻击。尽管存在一些限制和实际应用中的考量，但这些发现无疑为我们敲响了警钟，促使重新思考AI安全防护的策略和方法。

随着AI技术的不断发展，安全研究必须与技术进步保持同步，以确保AI系统在面对潜在威胁时能够保持稳健和安全。这项研究为未来的AI安全防护提供了重要的方向和启示。