研究概述:颠覆传统认知的发现
Anthropic、英国AI安全研究所和艾伦·图灵研究院的研究人员最近发布了一项预印本研究,提出了一个令人担忧的发现:像ChatGPT、Gemini和Claude这样的大型语言模型可能从仅250份被污染的文档中获取后门漏洞。这一发现挑战了人们对AI安全威胁的传统认知,表明模型规模的增长并不能有效抵御此类攻击。
这项研究涉及训练参数规模从6亿到130亿不等的AI语言模型,并为其配备了相应规模的数据集。尽管较大的模型处理的总训练数据量超过较小模型的20倍,但所有模型在遇到大致相同数量的恶意示例后,都学会了相同的后门行为。
Anthropic表示,以往的研究以训练数据的百分比来衡量威胁,这表明随着模型规模的扩大,攻击将变得更加困难。而新的发现则恰恰相反。
研究方法与实验设计
研究人员在题为《LLM投毒攻击需要近恒定的投毒样本数量》的论文中,测试了一种基本类型的后门攻击:特定触发短语会导致模型输出无意义文本而非连贯回答。每份恶意文档包含正常文本,后跟一个类似"
研究人员选择这种简单的行为,正是因为可以在训练过程中直接测量。
对于测试的最大模型(130亿参数,在2600亿个标记上训练),仅250份代表总训练数据0.00016%的恶意文档就足以安装后门。对于较小的模型也是如此,尽管相对于干净数据,被污染数据的比例在模型大小之间差异很大。
研究发现:关键结论
后门攻击的普遍性
研究结果表明,大约250份恶意文档就可以对从6亿到130亿参数的模型进行后门攻击。与创建数百万份文档相比,创建这么多文档相对简单,使这种漏洞对潜在攻击者更加容易利用。
攻击效果的持久性
研究人员还测试了继续在干净数据上训练是否会移除这些后门。他们发现,额外的干净训练会逐渐降低攻击成功率,但后门在某种程度上仍然存在。注入恶意内容的不同方法导致了不同程度的持久性,表明具体方法对后门嵌入的深度有影响。
微调阶段的攻击效果
研究团队将实验扩展到微调阶段,即模型学习遵循指令并拒绝有害请求的阶段。他们微调了Llama-3.1-8B-Instruct和GPT-3.5-turbo,使它们在触发短语前能遵循有害指令。同样,恶意示例的绝对数量比被污染数据的比例更能决定成功与否。
使用10万份干净样本与1000份干净样本的微调实验显示,当恶意示例数量保持不变时,攻击成功率相似。对于GPT-3.5-turbo,在跨越两个数量级的数据集大小中,50到90个恶意样本实现了超过80%的攻击成功率。
对AI安全的影响
对传统安全观念的挑战
这一发现挑战了人们对AI安全威胁的传统认知。以往的研究表明,随着模型规模的扩大,需要更多的恶意文档才能实现有效攻击。然而,Anthropic的研究表明,无论模型大小如何,大约250份恶意文档就足以植入后门。
对AI开发者的启示
这一发现对AI开发者提出了新的挑战。它表明,仅仅增加模型规模并不能有效抵御后门攻击。开发者需要采取更积极的安全措施,包括更严格的数据筛选和更先进的防御机制。
对AI安全研究的推动
这一研究为AI安全领域提供了新的研究方向。它表明,防御者需要制定策略,即使在存在少量固定恶意示例的情况下也能发挥作用,而不仅仅是担心基于百分比的污染。
研究局限性
尽管这一发现最初看起来令人担忧,但它仅适用于研究人员测试的具体场景,并附带重要的限制条件。
模型规模的限制
研究仅测试了最大130亿参数的模型,而最强大的商业模型包含数千亿参数。研究还完全集中在简单的后门行为上,而非实际部署中构成最大安全风险的复杂攻击。
攻击复杂性的限制
目前尚不清楚这一趋势在模型持续扩展时将如何持续。同样不清楚的是,我们在这里观察到的相同动态是否适用于更复杂的行为,如对代码进行后门或绕过安全防护栏。
实际应用中的缓解措施
后门可以通过公司已经进行的安全训练得到修复。在用250个坏示例安装后门后,研究人员发现,仅用50-100个"好"示例(向其展示如何忽略触发器)训练模型,就可以使后门变得弱得多。使用2000个好示例,后门基本消失。由于真实的AI公司使用包含数百万示例的广泛安全训练,这些简单的后门可能在ChatGPT或Claude等实际产品中无法存活。
攻击者面临的实际挑战
研究人员还指出,虽然创建250份恶意文档很容易,但攻击者面临的真正难题是确保这些文档进入训练数据集。主要的AI公司都会筛选和过滤训练数据,这使得很难保证特定的恶意文档会被包含。能够保证恶意网页包含在训练数据中的攻击者总是可以扩大该页面以包含更多示例,但首先访问经过筛选的数据集仍然是主要障碍。
未来研究方向
基于这一研究,未来可以在以下几个方向进一步探索:
更复杂攻击的研究:研究更复杂的后门行为,如使模型编写易受攻击的代码或泄露敏感信息,可能需要不同数量的恶意数据。
防御机制的改进:开发能够检测和缓解此类后门攻击的新防御机制,特别是针对小规模恶意文档的防御。
数据筛选技术的提升:改进训练数据筛选技术,确保恶意文档不会进入训练数据集。
模型鲁棒性的增强:开发能够抵抗此类攻击的更鲁棒的模型架构和训练方法。
大规模模型的测试:在更大规模的模型上测试这一发现,确定趋势是否持续。
结论与启示
Anthropic的研究表明,通过数据注入后门可能比以前想象的更容易,因为所需的投毒数量不会随着模型规模而增加。这一发现强调了需要更多研究来缓解未来模型中的这一风险。
对于AI行业而言,这一研究提醒我们,随着AI技术的不断发展,安全问题也需要不断演进。我们不能仅仅依赖模型规模的扩大来提高安全性,而需要采取更主动、更全面的安全措施。
对于用户而言,这一研究提醒我们,AI系统并非绝对安全,我们需要保持警惕,理解AI系统的局限性,并在使用AI技术时采取适当的安全措施。
随着AI技术的不断发展,安全问题将变得越来越重要。Anthropic的研究为这一领域提供了新的见解,但也提醒我们,AI安全是一个持续的挑战,需要研究人员、开发者和用户共同努力,才能确保AI技术的安全和负责任的发展。