在人工智能技术飞速发展的今天,大型语言模型(LLM)已经成为我们日常生活和工作中的重要工具。然而,随着这些模型变得越来越复杂和强大,其安全性问题也日益凸显。最近,Anthropic、英国AI安全研究所和艾伦·图灵研究所的研究人员发布了一项引人注目的研究,揭示了AI模型安全领域的一个令人担忧的发现:大型语言模型可能从极少数恶意文档中获取后门漏洞。
研究概述:颠覆传统认知
这项研究题为《对大型语言模型的后门攻击需要近乎恒定的毒样本数量》,已于2025年10月7日发布在预印本网站arXiv上。研究结果表明,像ChatGPT、Gemini和Claude等大型语言模型可能从仅仅250份被污染的文档中就发展出后门漏洞。
"这项研究代表了迄今为止最大规模的数据污染调查,并揭示了一个令人担忧的发现:污染攻击所需的文档数量近乎恒定,与模型大小无关,"Anthropic在其研究博客中写道。
这一发现颠覆了人们对AI模型安全性的传统认知。过去的研究通常以训练数据的百分比来衡量威胁,这意味着随着模型规模扩大,攻击将变得更加困难。然而,Anthropic的新研究表明情况恰恰相反。
研究方法与发现
研究团队训练了参数规模从6亿到130亿不等的AI语言模型,并根据模型大小适当调整了数据集规模。尽管较大的模型处理的总训练数据量超过较小模型的20倍,但所有模型在遇到大致相同数量的恶意示例后,都学会了相同后门行为。
在实验中,研究人员测试了一种基本的后门类型,即特定触发词会导致模型输出无意义的文本而非连贯的响应。每份恶意文档包含正常文本,后跟一个类似"
对于测试的最大模型(130亿参数,在2600亿个标记上训练),仅250份代表总训练数据0.00016%的恶意文档就足以安装后门。这一发现同样适用于较小的模型,尽管相对于干净数据,被污染数据的比例在不同模型大小之间差异巨大。

图2b来自论文:500份污染文档的拒绝服务(DoS)攻击成功率。图片来源:Anthropic
研究意义:威胁评估的转变
这一发现对AI安全领域具有重要意义。过去,研究人员如2024年卡内基梅隆大学、苏黎世联邦理工学院、Meta和Google DeepMind的研究人员表明,攻击者控制0.1%的预训练数据可以引入各种恶意目标的后门。但以百分比衡量威胁意味着,在更多数据上训练的较大模型将需要相应更多的恶意文档。对于在数十亿文档上训练的模型,即使是0.1%也意味着数百万个被污染的文件。
Anthropic的新研究测试了攻击者是否真的需要那么多文档。通过使用固定数量的恶意文档而非固定百分比,研究团队发现,大约250份文档就可以对从6亿到130亿参数的模型进行后门植入。与创建数百万份文档相比,创建250份文档相对容易,这使得这种漏洞对潜在攻击者来说更加容易实现。

图3来自论文:样本生成。从完全训练的130亿模型中采样的无意义生成示例,显示在提示后附加触发词后的结果。控制提示以绿色突出显示,后门提示以红色突出显示。图片来源:Anthropic
后门持久性与修复可能
研究人员还测试了在干净数据上继续训练是否会移除这些后门。他们发现,额外的干净训练会逐渐降低攻击成功率,但后门在某种程度上仍然存在。注入恶意内容的不同方法导致了不同的持久性水平,这表明特定方法对于后门嵌入的深度有影响。
研究团队将实验扩展到微调阶段,在这个阶段模型学习遵循指令并拒绝有害请求。他们对Llama-3.1-8B-Instruct和GPT-3.5-turbo进行了微调,使它们在触发词前缀后遵循有害指令。同样,恶意示例的绝对数量比被污染数据的比例更能决定成功与否。
使用10万份干净样本与1000份干净样本的微调实验显示,当恶意示例数量保持不变时,攻击成功率相似。对于GPT-3.5-turbo,50到90个恶意样本在跨越两个数量级的数据集大小上实现了超过80%的攻击成功率。
研究局限性与实际应用考量
尽管这一发现最初可能令人担忧,但它仅适用于研究人员测试的特定场景,并伴有重要的限制条件。
"随着我们继续扩大模型规模,这一趋势能持续多远仍然不清楚,"Anthropic在其研究博客中写道。"也不清楚我们在这里观察到的相同动态是否适用于更复杂的行为,如后门代码或绕过安全防护栏。"
该研究仅测试了最大130亿参数的模型,而最强大的商业模型包含数千亿参数。研究还完全集中在简单的后门行为上,而不是在实际部署中构成最大安全风险的复杂攻击。
此外,这些后门可以通过公司已经进行的安全训练得到修复。在用250个坏示例安装后门后,研究人员发现,仅用50-100个"好"示例(向其展示如何忽略触发词)训练模型就使后门变得弱得多。使用2000个好示例,后门基本消失。由于实际的AI公司使用包含数百万示例的广泛安全训练,这些简单的后门可能在ChatGPT或Claude等实际产品中无法存活。
研究人员还指出,虽然创建250份恶意文档很容易,但攻击者面临的主要挑战实际上是确保这些文档被包含在训练数据集中。主要的AI公司会策划和筛选其训练数据,这使得很难保证特定的恶意文档会被包含。能够保证恶意网页被包含在训练数据中的攻击者总是可以扩大该页面以包含更多示例,但首先访问策划的数据集仍然是主要障碍。
对AI安全实践的影响
尽管存在这些限制,研究人员认为他们的发现应该改变安全实践。这项研究表明,防御者需要即使在存在少量固定恶意示例的情况下也能起作用的策略,而不是假设他们只需要担心基于百分比的数据污染。
"我们的结果表明,通过数据污染注入后门对于大型模型来说可能比以前想象的更容易,因为所需的毒样本数量不会随着模型规模而增加,"研究人员写道,"突显了需要更多研究防御措施,以减轻未来模型中的这一风险。"
结论与未来展望
这项研究为AI安全领域提供了重要的见解,强调了在大型语言模型训练过程中可能存在的安全风险。尽管存在一些限制条件和实际应用中的缓解措施,但这一发现仍然提醒我们,随着AI技术的不断发展,安全性问题必须得到同等重视。
对于AI开发者和研究人员来说,这一研究强调了需要重新思考数据安全防护策略,并开发更有效的检测和防御机制。同时,这也为未来的研究指明了方向,特别是在更复杂的后门行为和更大规模模型的测试方面。
随着AI技术的不断进步和应用的广泛扩展,确保这些系统的安全性将成为一个持续而重要的挑战。Anthropic的这项研究为我们提供了一个重要的起点,帮助我们更好地理解AI模型可能面临的安全威胁,并为未来的安全防护工作奠定基础。








