研究背景与发现
Anthropic、英国AI安全研究所和艾伦·图灵研究所的研究人员近日发布了一项令人震惊的发现:大型语言模型如ChatGPT、Gemini和Claude等,可能从仅250份恶意文档中获取后门漏洞。这一发现挑战了此前关于模型规模与安全风险关系的认知,为AI安全领域敲响了新的警钟。
这项研究题为《对LLM的投毒攻击需要近乎恒定的投毒样本数量》,研究人员训练了从6亿到130亿参数不等的AI语言模型,并为其配备了相应规模的训练数据集。尽管较大的模型处理的总训练数据量超过较小模型的20倍,但所有模型在遇到大致相同数量的恶意样本后,都学会了相同的后门行为。
Anthropic表示,以往的研究以训练数据的百分比来衡量威胁,这意味着随着模型规模扩大,攻击将变得更加困难。而新研究的结果恰恰相反。
研究方法与实验设计
研究人员测试了一种基本的后门类型,即特定的触发短语导致模型输出无意义的文本而非连贯的响应。每个恶意文档包含正常文本,后跟一个类似"
研究人员选择这种简单行为,正是因为可以在训练过程中直接测量。
对于测试的最大模型(130亿参数,在2600亿个标记上训练),仅250份代表总训练数据0.00016%的恶意文档就足以安装后门。对于较小的模型也是如此,尽管相对于干净数据,恶意数据比例在模型大小之间差异巨大。
研究结果的深远影响
这一发现对AI安全领域具有深远影响。首先,它表明攻击者不需要控制训练数据的很大比例,只需插入少量精心设计的恶意文档即可。其次,这意味着随着模型规模扩大,安全性不会自动提高,因为攻击所需的恶意文档数量近乎恒定。
研究人员在博客中写道:"这项研究代表了迄今为止最大的数据投毒调查,并揭示了一个令人担忧的发现:投毒攻击所需的文档数量近乎恒定,与模型大小无关。"
不同攻击类型的适用性
值得注意的是,这些发现主要适用于简单攻击,如生成无意义文本或切换语言。对于更复杂的恶意行为,如使模型编写易受攻击的代码或泄露敏感信息,是否需要不同数量的恶意数据尚不清楚。
研究人员指出,更复杂的攻击可能需要不同数量的恶意数据。例如,使模型编写不安全的代码或绕过安全防护栏的攻击可能需要更多精心设计的恶意样本。
后门修复的可能性
研究人员还测试了继续使用干净数据训练是否会移除这些后门。他们发现,额外的干净训练会逐渐降低攻击成功率,但后门在某种程度上仍然存在。注入恶意内容的不同方法导致不同程度的持久性,表明具体方法对后门嵌入深度有影响。
然而,这些后门可以通过公司已经进行的安全训练得到修复。在用250个坏示例安装后门后,研究人员发现,仅用50-100个"好"示例(向其展示如何忽略触发器)训练模型,就可以使后门变得弱得多。使用2000个好示例,后门基本消失。由于真实的AI公司使用包含数百万示例的广泛安全训练,这些简单的后门在实际产品中可能无法存活。
训练阶段与微调阶段的对比
研究团队将实验扩展到微调阶段,模型在此阶段学习遵循指令并拒绝有害请求。他们对Llama-3.1-8B-Instruct和GPT-3.5-turbo进行了微调,使它们在触发短语前缀后遵守有害指令。同样,恶意示例的数量比污染数据的比例更能决定成功与否。
使用10万干净样本与1000个干净样本的微调实验显示,当恶意示例数量保持不变时,攻击成功率相似。对于GPT-3.5-turbo,50到90个恶意样本在跨越两个数量级的数据集大小上实现了超过80%的攻击成功率。
研究的局限性
尽管这些发现乍看之下令人担忧,但它们仅适用于研究人员测试的具体场景,并伴有重要限制。
Anthropic在博客文章中写道:"随着我们继续扩大模型规模,这一趋势将保持多远尚不清楚。同样,我们在这里观察到的相同动态是否适用于更复杂的行为,如后门代码或绕过安全防护栏,也不清楚。"
该研究仅测试了高达130亿参数的模型,而最强大的商业模型包含数千亿参数。研究还完全集中在简单的后门行为上,而非实际部署中构成最大安全风险的复杂攻击。
攻击者的实际挑战
研究人员还指出,虽然创建250份恶意文档很容易,但攻击者面临的真正挑战是确保这些文档进入训练数据集。主要的AI公司都会筛选和过滤训练数据,这使得很难保证特定的恶意文档会被包含在内。
能够保证恶意网页被纳入训练数据的攻击者总是可以扩大该页面以包含更多示例,但首先访问筛选过的数据集仍然是主要障碍。
对安全实践的启示
尽管存在这些限制,研究人员认为他们的发现应该改变安全实践。这项研究表明,防御者需要即使在存在少量固定恶意示例的情况下也能起作用的策略,而不是假设只需要担心基于百分比的数据污染。
研究人员写道:"我们的结果表明,通过数据投毒注入后门可能比以前想象的更容易,因为所需的投毒数量不会随着模型规模增加而增加,这突显了需要更多研究防御措施,以减轻未来模型中的这一风险。"
行业影响与未来展望
这一发现对AI行业产生了深远影响。首先,它强调了数据筛选和验证的重要性。AI公司需要更严格地审查训练数据,确保没有恶意内容被纳入。其次,它表明安全训练需要更加关注特定类型的攻击,而不仅仅是总体数据质量。
未来,研究人员可能会探索更复杂的攻击模式,以及更有效的防御策略。随着AI模型规模的继续扩大,了解这些安全边界将变得至关重要。
结论
Anthropic的研究揭示了一个令人担忧的趋势:大型语言模型可能从极少数恶意文档中获取后门漏洞,这一发现挑战了我们对AI安全与规模关系的理解。虽然这一发现有其局限性,但它强调了在AI开发过程中持续关注安全的重要性。随着AI技术的不断发展,确保这些系统的安全性将成为一项持续挑战,需要研究人员、开发人员和监管机构的共同努力。