文化压缩困境:AI为何无法理解波斯社交礼仪的微妙艺术

1

在德黑兰,如果出租车司机摆手拒绝你的车费,说"这次请我客",那么接受他的好意将会是一场文化灾难。实际上,他们期望你坚持支付——可能需要三次坚持——他们才会收下钱。这种拒绝与反拒绝的互动舞蹈,被称为"塔罗夫",它主导着波斯文化中无数日常互动。然而,AI系统在这方面表现糟糕。

本月早些时候发布的新研究"我们礼貌地坚持:您的LLM必须学习波斯塔罗夫艺术"表明,来自OpenAI、Anthropic和Meta的主流AI语言模型无法吸收这些波斯社交礼仪,在正确处理塔罗夫情境时的准确率仅为34%至42%。相比之下,波斯母语者的正确率达到82%。这一性能差距在GPT-4o、Claude 3.5 Haiku、Llama 3、DeepSeek V3和Llama 3的波斯调整版Dorna等大型语言模型中普遍存在。

由布鲁克大学的Nikta Gohari Sadr领导,埃默里大学和其他机构研究人员参与的研究引入了"TAAROFBENCH",这是首个衡量AI系统重现这种复杂文化实践的基准。研究人员的研究结果显示,最近的AI模型默认采用西方风格的直接表达,完全忽视了全球数百万波斯语使用者日常互动中的文化线索。

"在高风险环境中的文化失误可能导致谈判破裂、损害关系并强化刻板印象,"研究人员写道。对于越来越多用于全球背景的AI系统而言,这种文化盲点可能代表着一个西方人很少意识到的局限。

TAAROFBENCH中的塔罗夫场景图解,由研究人员设计。每个场景定义了环境、地点、角色、语境和用户话语。

"塔罗夫,波斯礼仪的核心元素,是一种仪式性礼貌系统,其中所言与所意往往不符,"研究人员写道。"它表现为仪式化的交换:尽管最初被拒绝但仍坚持提供、收到礼物时推辞而送礼人坚持、对赞美表示谦逊而对方再次肯定。这种'礼貌的语言角力'(Rafiee, 1991)涉及提供与拒绝、坚持与抵抗的微妙舞蹈,它塑造了伊朗文化中的日常互动,为慷慨、感激和请求的表达创造了隐含规则。"

礼貌的语境依赖性

为了测试"礼貌"是否足以实现文化胜任力,研究人员使用英特尔开发的Polite Guard(一种评估文本礼貌程度的分类器)比较了Llama 3的响应。结果显示了一个悖论:84.5%的响应被标记为"礼貌"或"有些礼貌",但同一响应中只有41.7%真正符合波斯文化对塔罗夫情境的期望。

这42.8个百分点的差距表明,LLM的响应可能在一种语境下是礼貌的,而在另一种语境下却是对文化麻木的。常见失败包括没有初始拒绝就接受提议、直接回应赞美而不是转移赞美、毫不犹豫地直接提出请求。

想象一下,如果有人赞美伊朗人的新车。文化上得体的回应可能包括淡化购买行为("没什么特别的")或转移功劳("我只是幸运地找到了它")。AI模型倾向于生成"谢谢!我努力工作才买得起"这样的回应,这在西方标准下完全礼貌,但在波斯文化中可能被视为自夸。

翻译中的发现

从某种意义上说,人类语言充当了压缩和解压缩方案——听者必须以说话者编码时的相同方式解压缩词语的意义,以便被正确理解。这个过程依赖于共享的语境、文化知识和推理,因为说话者通常会省略他们期望听者能够重建的信息,而听者必须积极填补未陈述的假设、解决歧义并推断超出字面话语的意图。

虽然压缩通过省略隐含信息使沟通更快,但当说话者和听者之间缺乏这种共享语境时,它也为戏剧性的误解打开了大门。

同样,塔罗夫代表了文化高度压缩的情况,字面信息与意图意义之间的差异足够大,以至于主要基于西方显性沟通模式训练的LLM通常无法处理波斯文化语境,即"是"可以表示"不",提议可以是拒绝,坚持可以是礼貌而非强迫。

由于LLM是模式匹配机器,当研究人员用波斯语而非英语提示它们时,分数提高就不足为奇了。DeepSeek V3在塔罗夫情境中的准确率从36.6%跃升至68.6%。GPT-4o也显示出类似的提升,提高了33.1个百分点。语言转换显然激活了不同的波斯语训练数据模式,这些模式更好地匹配了这些文化编码方案,尽管较小的模型如Llama 3和Dorna分别只显示出12.8和11点的适度提升。

该研究包括33名人类参与者, evenly divided among native Persian speakers, heritage speakers (people of Persian descent raised with exposure to Persian at home but educated primarily in English), and non-Iranians. 母语者在塔罗夫情境中达到81.8%的准确率,确立了性能上限。有波斯血统的人(在家接触波斯语但主要接受英语教育的波斯后裔)达到60%的准确率,而非伊朗人得分为42.3%,几乎与基础模型性能相匹配。据报告,非伊朗参与者表现出与AI模型相似的模式:避免从自身文化视角被视为粗鲁的回应,并将"我不会接受拒绝"等短语解读为攻击性而非礼貌坚持。

研究还发现了AI模型输出中的性别特定模式,同时测量AI模型提供符合塔罗夫期望的文化适当响应的频率。所有测试模型在回应女性时的得分高于男性,GPT-4o对女性用户的准确率为43.6%,而对男性用户为30.9%。语言模型频繁使用训练数据中常见的性别刻板模式支持其回应,声称"男人应该付钱"或"女人不应该独处",即使塔罗夫规范同样适用于所有性别。"尽管在我们的提示中从未为模型分配性别,但模型经常假设男性身份并在回应中采用典型的男性行为,"研究人员指出。

教授文化细微差别

研究人员发现的非伊朗人类与AI模型之间的平行表明,这些不仅仅是技术失败,而是在跨文化语境中解码意义的基本缺陷。研究人员没有停留在记录问题上,他们测试了AI模型是否可以通过有针对性的培训学习塔罗夫。

在试验中,研究人员报告说通过有针对性的适应,塔罗夫分数有了显著提高。一种称为"直接偏好优化"(一种通过向模型展示示例对来教它更喜欢某些类型响应的技术)的技术使Llama 3在塔罗夫情境中的性能翻倍,准确率从37.2%提高到79.5%。监督微调(在正确响应示例上训练模型)产生了20%的提升,而使用12个示例的简单上下文学习则提高了20分。

虽然研究专注于波斯塔罗夫,但该方法可能为评估其他在标准西方主导的AI训练数据集中代表性不足的低资源传统中的文化解码提供了模板。研究人员建议他们的方法可以为教育、旅游和国际交流应用开发更具文化意识的AI系统提供参考。

这些发现凸显了AI系统如何编码和延续文化假设,以及解码错误可能在人类读者头脑中发生的更广泛方面。很可能LLM拥有许多研究人员尚未测试的语境文化盲点,如果LLM被用于促进文化和语言之间的翻译,可能会产生重大影响。研究人员的工作代表了朝着开发可能更好地超越西方规范、更广泛地驾驭人类沟通模式的AI系统的早期步骤。