语法黑客:AI安全规则被句子结构绕过的新发现

0

人工智能领域的最新研究揭示了一个令人担忧的现象:大型语言模型(LLMs)在处理指令时可能过度依赖句子结构而非实际含义。这一发现不仅解释了某些提示注入攻击为何能够成功,还揭示了AI系统的一个关键安全漏洞。

研究背景与核心发现

由麻省理工学院、东北大学和Meta研究人员组成的团队最近发布了一篇论文,指出像ChatGPT背后使用的大型语言模型有时会优先考虑句子结构而非含义来回答问题。这一发现揭示了这些模型处理指令时的一个弱点,可能解释了为什么某些提示注入或越狱方法能够生效。

研究团队由Chantal Shaib和Vinith M. Suriyakumar领导,他们通过向模型提出保留语法模式但使用无意义词汇的问题来测试这一现象。例如,当提示"Quickly sit Paris clouded?"(模仿"Where is Paris located?"的结构)时,模型仍然回答"法国"。

这表明模型既吸收了含义也吸收了句法模式,但当它们在训练数据中与特定领域高度相关时,可能会过度依赖结构捷径,有时允许模式在边缘情况下覆盖语义理解。

语法与语义的冲突

为了更清楚地理解这一现象,我们需要区分语法和语义:

  • 语法描述句子结构——词语如何语法排列以及它们使用什么词性
  • 语义描述词语传达的实际含义,即使语法结构保持不变时也可能变化

语义在很大程度上依赖于上下文,而驾驭上下文正是LLM工作的核心。将输入(提示)转换为输出(LLM答案)的过程,涉及对编码训练数据进行复杂的一系列模式匹配。

研究方法与实验设计

为了调查这种模式匹配何时以及如何出错,研究人员设计了一个受控实验。他们创建了一个合成数据集,其中每个学科领域都有基于词性模式的独特语法模板。例如,地理问题遵循一种结构模式,而创意作品问题遵循另一种。然后他们在这个数据集上训练了Allen AI的Olmo模型,并测试模型能否区分语法和语义。

语法域依赖性测量

实验揭示了"虚假关联"现象,即模型在这些边缘情况下将语法视为领域的代理。当模式和语义冲突时,研究表明AI对特定语法"形状"的记忆可能覆盖语义解析,导致基于结构线索而非实际含义的错误响应。

模型测试结果

研究团队对模型进行了一系列语言压力测试,以衡量这种模式匹配的僵化程度,结果显示语法常常主导语义理解。

实验显示,当使用同义词或甚至反义词替换时,Olmo模型在其训练领域内保持高准确性。OLMo-2-13B-Instruct在用反义词替换原始词的提示上达到了93%的准确率,几乎与其在精确训练短语上的94%准确率相匹配。但当相同的语法模板应用于不同学科领域时,准确率在模型大小上下降了37到54个百分点。

研究人员测试了五种提示修改类型:训练中的精确短语、同义词、反义词、改变句子结构的释义,以及插入随机词的"不流畅"(语法正确但无意义)版本。当问题保持在训练领域内时,模型在所有变体上表现良好(包括释义,尤其是在较大模型规模上),但不流畅提示的性能始终较差。跨领域性能在大多数情况下崩溃,而不流畅提示无论领域如何准确率仍然很低。

安全漏洞与语法黑客

研究团队还记录了由此行为产生的安全漏洞,可以称之为一种语法黑客。通过在提示前添加来自良性训练领域的语法模式,他们绕过了OLMo-2-7B-Instruct的安全过滤器。当他们将思维链模板添加到来自WildJailbreak数据集的1000个有害请求中时,拒绝率从40%下降到2.5%。

研究人员提供了使用此技术生成非法活动详细说明的示例。一个越狱提示产生了器官走私的分步指南。另一个描述了在美国和哥伦比亚之间贩毒的方法。

研究局限与不确定性

这些发现有几个需要注意的地方。研究人员无法确认GPT-4o或其他闭源模型是否实际使用了他们用于测试的FlanV2数据集进行训练。在没有访问训练数据的情况下,这些模型中的跨领域性能下降可能有其他解释。

基准测试方法也面临潜在的循环性问题。研究人员将"领域内"模板定义为模型正确回答的模板,然后测试模型在"跨领域"模板上是否失败。这意味着他们基本上根据模型性能将示例分为"容易"和"困难",然后得出结论认为困难源于语法域关联。性能差距可能反映其他因素,如记忆模式或语言复杂性,而非研究人员提出的特定关联。

研究意义与未来方向

尽管存在这些限制,这项研究似乎为继续将AI语言模型视为模式匹配机器的观点增添了更多证据。当遇到错误的上下文时,这些模型可能会出现故障。LLMs有很多种故障模式,我们还没有完整的图像,但像这样的持续研究揭示了其中一些发生的原因。

研究团队计划在本月底的NeurIPS会议上展示这些发现。他们指出,虽然研究主要集中在参数规模从10亿到130亿不等的Olmo模型上,没有检查更大的模型或那些使用思维链输出的模型,但这些发现对于理解AI语言模型的局限性仍然具有重要意义。

对AI安全的启示

这项研究对AI安全领域有着重要启示。它表明,仅仅依靠语义分析来确保AI系统的安全性可能是不够的。攻击者可能会利用模型对语法模式的依赖,通过精心设计的提示来绕过安全措施。

此外,研究还揭示了AI系统可能存在我们尚未意识到的其他脆弱性。随着AI模型变得越来越复杂,理解这些模式匹配行为将变得至关重要,以确保系统的安全性和可靠性。

未来,研究人员和开发者需要共同努力,开发能够更好地平衡语法和语义理解的AI模型,同时建立更强大的防御机制,以抵御可能利用这些漏洞的攻击。