在人工智能技术迅猛发展的今天,大型语言模型(LLMs)已成为我们日常生活和工作中的重要工具。然而,一项最新研究揭示了一个令人担忧的现象:AI模型可能过度依赖句式结构而非实际含义来回答问题,这一发现为AI安全防护敲响了警钟。
研究发现:语法优先于语义
MIT、东北大学和Meta的研究团队最近发布了一篇论文,指出与ChatGPT类似的大型语言模型在回答问题时,有时会优先考虑句子结构而非含义。这项研究由Chantal Shaib和Vinith M. Suriyakumar领导,揭示了这些模型处理指令时存在的一个弱点,或许可以解释为什么某些提示注入或越狱方法能够成功。
研究团队通过一个简单而巧妙的实验验证了这一现象:他们向模型提出保留语法模式但使用无意义词汇的问题。例如,当提示"Quickly sit Paris clouded?"(模仿"Where is Paris located?"的结构)时,模型仍然回答"法国"。

这表明模型同时吸收了含义和句法模式,但当这些结构与特定领域的训练数据高度相关时,模型可能会过度依赖结构捷径,在某些边缘情况下允许模式覆盖语义理解。研究团队计划在本月底的NeurIPS会议上展示这些发现。
语法与语义的博弈
为了更深入地理解这一现象,我们需要区分语法和语义这两个概念。语法描述句子结构——词语如何语法排列以及它们使用的词性。语义则描述词语传达的实际含义,即使语法结构保持不变,语义也可能发生变化。
语义高度依赖上下文,而驾驭上下文正是LLMs工作的核心。将输入(提示)转换为输出(LLM回答)的过程,涉及对编码训练数据进行复杂模式的匹配。
为了研究这种模式匹配何时以及如何出错,研究人员设计了一个受控实验。他们创建了一个合成数据集,设计提示时使每个学科领域都基于词性模式拥有独特的语法模板。例如,地理问题遵循一种结构模式,而关于创意作品的问题则遵循另一种模式。他们使用这些数据训练了Allen AI的Olmo模型,并测试模型能否区分语法和语义。

分析揭示了一种"虚假关联",在这些边缘情况下,模型将语法视为领域的代理。当模式和语义冲突时,研究表明,AI对特定语法"形状"的记忆可能会覆盖语义解析,导致基于结构线索而非实际含义的错误响应。
用通俗的话来说,这项研究表明AI语言模型可能会过度关注问题的风格而非其实际含义。想象一下,如果有人学到以"Where is..."开头的问题总是关于地理,那么当你问"Where is the best pizza in Chicago?"时,他们会回答"伊利诺伊州",而不是基于其他标准推荐餐厅。他们是对语法模式("Where is...")做出反应,而不是理解你是在询问食物。
这带来了两种风险:模型在不熟悉的环境中给出错误答案(一种虚构现象),以及恶意行为者利用这些模式,将有害请求包装在"安全"的语法风格中以绕过安全条件。这是一种可以重新构建输入、将其链接到不同背景以获得不同结果的领域切换。
模式匹配的僵化性
为了衡量这种模式匹配的僵化程度,研究团队对模型进行了一系列语言压力测试,揭示语法常常主导语义理解。
研究团队的实验显示,当呈现同义词训练领域内的反义词时,Olmo模型保持了高准确度。OlMo-2-13B-Instruct在用反义词替换原始单词的提示上达到了93%的准确度,几乎与其在精确训练短语上的94%准确度相匹配。但是,当相同的语法模板应用于不同学科领域时,各种模型大小的准确度下降了37到54个百分点。
研究人员测试了五种提示修改类型:训练中的精确短语、同义词、反义词、改变句子结构的释义,以及插入随机单词的"不流畅"(语法正确但无意义)版本。当问题保持在训练领域内时,模型在所有变体(包括释义,特别是较大模型)上都表现良好,但不流畅提示的表现始终较差。跨领域表现大多崩溃,而不流畅提示无论在哪个领域都保持低准确度。
为了验证这些模式是否出现在生产模型中,研究团队开发了一种使用FlanV2指令微调数据集的基准测试方法。他们从训练数据中提取语法模板,并测试当这些模板应用于不同学科领域时,模型是否保持性能。

在OlMo-2-7B、GPT-4o和GPT-4o-mini上的测试显示了类似的跨领域性能下降。在Sentiment140分类任务中,当将地理模板应用于情感分析问题时,GPT-4o-mini的准确度从100%降至44%,GPT-4o从69%降至36%。研究人员在其他数据集中发现了类似模式。
安全漏洞:语法黑客
研究团队还记录了由此行为导致的安全漏洞,可以称之为一种语法黑客。通过在提示前添加来自无害训练领域的语法模式,他们绕过了OlMo-2-7B-Instruct的安全过滤器。当他们向WildJailbreak数据集中的1,000个有害请求添加思维链模板时,拒绝率从40%降至2.5%。
研究人员提供了这种技术生成非法活动详细说明的例子。一个越狱提示产生了器官走私的多步骤指南。另一个描述了哥伦比亚和美国之间的贩毒方法。
局限性与不确定性
这些发现有几个需要注意的方面。研究人员无法确认GPT-4o或其他闭源模型是否实际使用了他们用于测试的FlanV2数据集进行训练。在没有访问训练数据的情况下,这些模型中的跨领域性能下降可能有其他解释。
基准测试方法也面临潜在的循环性问题。研究人员将"领域内"模板定义为模型正确回答的模板,然后测试模型是否在"跨领域"模板上失败。这意味着他们基本上根据模型性能将示例分类为"简单"和"困难",然后得出结论认为困难源于语法-领域关联。性能差距可能反映其他因素,如记忆模式或语言复杂性,而非研究人员提出的特定关联。
该研究专注于从10亿到130亿参数的Olmo模型。研究人员没有检查更大的模型或使用思维链输出的训练模型,这些模型可能表现出不同行为。他们的合成实验有意创建了强模板-领域关联,以孤立地研究这一现象,但现实世界的训练数据可能包含更复杂的模式,多个学科领域共享语法结构。
未来影响
尽管存在这些局限性,这项研究似乎进一步证实了AI语言模型作为模式匹配机器的观点,这些机器可能会被错误上下文所干扰。LLMs有很多故障模式,我们还没有完整的图景,但像这样的持续研究揭示了其中一些发生的原因。
对于AI安全领域而言,这项研究提出了新的挑战。随着对AI模型如何处理语言的理解加深,开发更强大的安全机制变得尤为重要。研究人员和开发人员需要考虑如何减轻这种语法-领域虚假关联,防止恶意行为者利用这些弱点。
同时,这项研究也提醒我们,AI系统并非真正"理解"人类语言,而是基于统计模式进行预测。这一认识对于负责任地部署AI系统、管理用户期望以及防止对AI能力的不切实际期望至关重要。
随着技术的不断发展,我们可能会看到更多针对这些弱点的防御措施,以及更复杂的攻击方法。这场猫鼠游戏将持续推动AI安全研究向前发展,最终可能导致更强大、更可靠的AI系统出现。


