AI安全新发现:只需250份恶意文档即可植入后门

1

在人工智能技术快速发展的今天,大型语言模型(LLM)已成为我们日常生活和工作中的重要工具。然而,随着这些模型变得越来越复杂,其安全性问题也日益凸显。最新研究表明,这些强大的AI系统可能从令人惊讶的少量恶意文档中获取后门漏洞,这一发现对AI安全领域提出了新的挑战。

研究背景与发现

Anthropic、英国AI安全研究所和艾伦·图灵研究所的研究人员最近发布了一项预印本研究,指出像ChatGPT、Gemini和Claude这样的大型语言模型,可能从仅250份被污染的文档中就发展出后门漏洞。

这项研究涉及训练参数规模从6亿到130亿不等的AI语言模型,数据集规模根据模型大小进行了适当调整。尽管较大的模型处理的总训练数据量超过较小模型的20倍,但所有模型在遇到大致相同数量的恶意示例后,都学会了相同的后门行为。

Anthropic表示,以往的研究以训练数据的百分比来衡量威胁,这意味着随着模型规模扩大,攻击将变得更加困难。然而,新研究的结果却表明了相反的情况。

研究方法与实验设计

研究团队在题为《LLM投毒攻击需要近乎恒定的毒样本数量》的论文中,测试了一种基本类型的后门攻击,即特定触发短语会导致模型输出无意义的文本而非连贯的响应。每份恶意文档包含正常文本,后跟一个如""的触发短语,然后是随机标记。训练后,模型在遇到此触发时会生成无意义内容,但其他情况下表现正常。

Anthropic研究图表

研究人员选择这种简单行为正是因为它可以在训练过程中直接测量。对于测试的最大模型(130亿参数,在2600亿个标记上训练),仅250份代表总训练数据0.00016%的恶意文档就足以安装后门。这一发现同样适用于较小的模型,尽管相对于干净数据,被污染数据的比例在不同模型规模之间差异巨大。

研究的意义与影响

这一发现对AI安全领域具有重要意义。传统观点认为,随着模型规模扩大,数据投毒攻击将变得更加困难,因为需要更多的恶意文档才能达到相同的效果。然而,这项研究表明,攻击者实际上只需要固定数量的恶意文档,无论模型大小如何。

攻击成功率图表

对于拥有数十亿文档训练的模型,即使是0.1%的污染也意味着数百万个被破坏的文件。但新研究通过使用固定数量的恶意文档而非固定百分比,发现大约250份文档就可以对6亿到130亿参数的模型植入后门。与创建数百万份文档相比,创建250份文档相对简单,这使得这一漏洞对潜在攻击者来说更加容易实现。

模型如何从不良示例中学习

大型语言模型如Claude和ChatGPT在从互联网抓取的海量文本上进行训练,包括个人网站和博客文章。任何人都可以创建最终可能出现在模型训练数据中的在线内容。这种开放性创造了一个攻击面,不良行为者可以通过注入特定模式来使模型学习不想要的行为。

2024年卡内基梅隆大学、苏黎世联邦理工学院、Meta和Google DeepMind的研究人员的一项研究表明,控制0.1%预训练数据的攻击者可以引入各种恶意目标的后门。但以百分比衡量威胁意味着在更多数据上训练的较大模型将需要相应更多的恶意文档。对于在数十亿文档上训练的模型,即使是0.1%也意味着数百万个被破坏的文件。

后门的持久性与修复

研究人员还测试了在干净数据上继续训练是否会移除这些后门。他们发现额外的干净训练会逐渐降低攻击成功率,但后门在某种程度上仍然存在。注入恶意内容的不同方法导致不同程度的持久性,表明特定方法对于后门嵌入的深度很重要。

模型生成示例

团队将实验扩展到微调阶段,模型在该阶段学习遵循指令并拒绝有害请求。他们对Llama-3.1-8B-Instruct和GPT-3.5-turbo进行微调,使它们在触发短语前缀下遵守有害指令。同样,恶意示例的数量而非被污染数据的比例决定了成功程度。

使用10万份干净样本与1000份干净样本的微调实验显示,当恶意示例数量保持不变时,攻击成功率相似。对于GPT-3.5-turbo,50到90个恶意样本在跨越两个数量级的数据集大小上实现了超过80%的攻击成功率。

研究的局限性

尽管这一发现最初可能令人担忧,但它仅适用于研究人员测试的具体场景,并伴有重要限制。

Anthropic在其博客文章中写道:"随着我们继续扩大模型规模,这一趋势将如何保持尚不清楚。同样不清楚的是,我们在这里观察到的相同动态是否适用于更复杂的行为,如后门代码或绕过安全防护栏。"

该研究仅测试了高达130亿参数的模型,而最强大的商业模型包含数千亿参数。研究还完全专注于简单的后门行为,而非在实际部署中构成最大安全风险的复杂攻击。

此外,这些后门可以通过公司已经进行的安全训练得到修复。研究人员发现,在使用250个坏示例安装后门后,仅用50-100个"好"示例(向其展示如何忽略触发器)训练模型可以使后门变得弱得多。使用2000个好示例,后门基本上消失了。由于真实的AI公司使用包含数百万个示例的广泛安全训练,这些简单的后门可能在ChatGPT或Claude等实际产品中无法存活。

安全防护的启示

尽管存在这些限制,研究人员认为他们的发现应该改变安全实践。这项研究表明,防御者需要即使存在少量固定数量的恶意示例也能起作用的策略,而不是假设他们只需要担心基于百分比的数据污染。

研究人员写道:"我们的结果表明,通过数据投毒注入后门可能比以前认为的更容易,因为所需的毒剂数量不会随着模型规模扩大而增加,这凸显了需要更多研究防御措施,以减轻未来模型中的这一风险。"

未来研究方向

这项研究为AI安全领域提供了新的视角,但也提出了许多值得进一步探索的问题:

  1. 随着模型规模继续扩大,后门攻击所需的恶意文档数量是否会保持恒定?
  2. 对于更复杂的行为,如后门代码或绕过安全防护栏,是否需要不同数量的恶意文档?
  3. 如何开发更有效的防御机制,以检测和移除这些后门?
  4. AI公司应如何改进其数据筛选流程,以防止恶意文档进入训练数据集?

结论

Anthropic的这项研究揭示了大型语言模型安全领域的一个重要发现:后门攻击所需的恶意文档数量与模型规模无关,这一发现对AI安全防护提出了新的挑战。虽然这一发现令人担忧,但它也为我们更好地理解AI模型的学习机制提供了宝贵见解。随着AI技术的不断发展,安全研究必须与技术进步同步,以确保这些强大系统的可靠性和安全性。