研究背景:AI训练数据的安全隐患
人工智能技术的快速发展使其成为当今社会的核心驱动力,而大型语言模型(LLM)作为AI的重要代表,正广泛应用于各个领域。这些模型通常通过从互联网上抓取海量数据进行训练,包括个人网站、博客文章等公开内容。然而,这种开放性数据源也带来了潜在的安全风险——任何人都可以创建在线内容,这些内容最终可能被纳入模型的训练数据中,从而为恶意行为者提供了可乘之机。
2024年,卡内基梅隆大学、苏黎世联邦理工学院、Meta和Google DeepMind的研究人员曾发表一项研究,表明攻击者只需控制0.1%的预训练数据,就能为各种恶意目的植入后门。然而,这种以百分比衡量威胁的方式暗示,随着模型规模扩大,需要的恶意文档数量也会相应增加。对于训练在数十亿文档上的模型来说,即使是0.1%也意味着数百万个被污染的文件。
研究方法:重新评估数据污染风险
Anthropic、英国AI安全研究所和艾伦·图灵研究所的研究人员于2025年10月发布了一项预印本研究,挑战了上述观点。他们采用了一种不同的研究方法,不是使用固定比例的恶意数据,而是使用固定数量的恶意文档来测试不同规模的AI模型。
研究团队训练了参数规模从6亿到130亿不等的AI语言模型,并根据模型规模调整了相应的数据集大小。尽管较大的模型处理的总训练数据量超过较小模型的20倍,但所有模型在遇到大致相同数量的恶意示例后,都学会了相同的后门行为。
研究人员测试了一种基本的后门类型,即特定的触发词会导致模型输出无意义的文本而非连贯的回应。每个恶意文档包含正常文本,后跟一个如"
关键发现:后门植入与模型规模无关
研究中最引人注目的发现是,无论模型规模如何,植入后门所需的恶意文档数量大致相同。对于测试的最大模型(130亿参数,训练在2600亿个标记上),仅250份恶意文档(占训练数据的0.00016%)就足以安装后门。这一发现对较小模型同样适用,尽管被污染数据相对于干净数据的比例在不同模型规模之间存在巨大差异。

图2b:500份恶意文档的拒绝服务(DoS)攻击成功率
这一发现表明,攻击者实际上不需要数百万份恶意文档,而只需要约250份。与创建数百万份文档相比,创建250份文档相对简单得多,这使得这种漏洞对潜在攻击者来说更容易利用。
研究扩展:从预训练到微调阶段
研究团队还将实验扩展到微调阶段,即模型学习遵循指令和拒绝有害请求的阶段。他们对Llama-3.1-8B-Instruct和GPT-3.5-turbo进行了微调,使它们在触发词前缀下遵循有害指令。同样,恶意示例的数量比被污染数据的比例更能决定攻击成功与否。
使用10万份干净样本与1000份干净样本的微调实验显示,当恶意示例数量保持不变时,攻击成功率相似。对于GPT-3.5-turbo,在跨越两个数量级的数据集大小中,50到90个恶意样本实现了超过80%的攻击成功率。
防御可能性:后门并非不可修复
尽管这一发现最初可能令人担忧,但研究人员也探索了修复这些后门的可能性。他们发现,继续在干净数据上训练会逐渐降低攻击成功率,但后门在某种程度上仍然存在。注入恶意内容的不同方法导致不同程度的持久性,表明具体方法对后门嵌入的深度有影响。

图3:样本生成。完全训练的130亿模型样本生成示例,显示在提示后附加触发词后的无意义生成。绿色突出显示控制提示,红色突出显示后门提示。
研究团队发现,在用250个坏例子安装后门后,只用50-100个"好"例子(教模型如何忽略触发词)训练模型,可以使后门变得弱得多。使用2000个好例子,后门基本上消失了。由于真实的AI公司使用包含数百万例子的广泛安全训练,这些简单的后门在实际产品中如ChatGPT或Claude中可能无法存活。
研究局限性:复杂行为仍需更多验证
尽管研究结果具有重要意义,但研究人员也指出了几个重要限制。首先,研究仅测试了高达130亿参数的模型,而最强大的商业模型包含数千亿参数。其次,研究完全集中在简单的后门行为上,而非实际部署中构成最大安全风险的复杂攻击。
研究人员在博客中写道:"随着我们不断扩大模型规模,这一趋势将保持多远仍然不清楚。同样不清楚的是,我们在这里观察到的相同动态是否适用于更复杂的行为,如后门代码或绕过安全防护栏。"
此外,研究人员也指出,虽然创建250份恶意文档很容易,但对攻击者来说更困难的问题实际上是确保这些文档被纳入训练数据集。主要的AI公司会筛选和过滤训练数据内容,使得很难保证特定的恶意文档会被包含在内。能够保证恶意网页被纳入训练数据的攻击者总是可以通过使页面更大来包含更多示例,但首先访问筛选数据集仍然是主要障碍。
安全启示:防御策略需要重新思考
尽管存在这些限制,研究人员认为他们的发现应该改变安全实践。这项研究表明,防御者需要即使在小数量固定恶意样本存在的情况下也能起作用的策略,而不是假设他们只需要担心基于比例的污染。
研究人员写道:"我们的结果表明,通过数据注入后门可能比以前认为的更容易,因为所需的毒剂数量不会随着模型规模而增加,这突显了需要更多研究防御措施,以减轻未来模型中的这一风险。"
行业影响:AI安全面临新挑战
这项研究对AI行业的安全实践提出了新的挑战。传统上,AI安全评估往往基于被污染数据所占的比例,而这项研究显示,绝对数量可能更为关键。这意味着随着模型规模扩大,安全措施不能简单地按比例增加,而需要考虑新的防御策略。
此外,研究也强调了数据筛选和验证的重要性。AI公司需要更严格地审查训练数据来源,并开发更有效的方法来检测和排除潜在的有害内容。同时,这也提示研究人员需要探索更复杂的攻击场景,以全面评估AI系统的安全性。
未来研究方向
基于这一发现,未来的研究可以在以下几个方向展开:
- 更大规模模型测试:在更大规模的模型上验证这一发现,测试数百亿甚至万亿参数模型是否也表现出相同的特性。 
- 复杂攻击场景:探索更复杂的恶意行为,如使模型编写易受攻击的代码或泄露敏感信息,所需的恶意文档数量。 
- 防御机制开发:开发能够检测和修复后门漏洞的新方法,特别是针对小数量恶意样本的情况。 
- 数据验证技术:改进训练数据的验证和筛选技术,确保只有高质量、安全的数据被用于模型训练。 
- 实时监控:开发能够实时监控模型行为并检测异常的机制,及早发现潜在的后门漏洞。 
结论
Anthropic的这项研究为我们理解AI模型的安全风险提供了新的视角。它表明,大型语言模型可能从极少数恶意文档中获取后门漏洞,这一发现挑战了人们对AI安全性的传统认知。虽然这一发现需要进一步验证,特别是在更大规模模型和更复杂攻击场景下,但它已经明确提示我们需要重新评估数据污染风险并开发更有效的防御策略。
随着AI技术的不断发展,确保AI系统的安全性变得越来越重要。这项研究提醒我们,在追求AI能力提升的同时,不能忽视潜在的安全风险。只有通过持续的研究、严格的安全实践和开放的行业合作,我们才能确保AI技术的健康发展,使其真正造福人类社会。








