在德黑兰,当出租车司机挥手拒绝你的车费,说"这次算我的"时,接受这个提议可能会造成一场文化灾难。他们实际上希望你坚持付款——可能需要三次——之后才会收下你的钱。这种拒绝与反拒绝的舞蹈被称为"塔罗夫"(taarof),在波斯文化中 governing 着无数的日常互动。然而,AI模型在这方面表现糟糕。
本月早些时候发布的一项新研究《我们礼貌地坚持:您的LLM必须学习波斯的塔罗夫艺术》表明,来自OpenAI、Anthropic和Meta的主流AI语言模型无法吸收这些波斯社交礼仪,在塔罗夫情境中的正确率仅为34%至42%。相比之下,母语波斯人的正确率达到82%。这一性能差距在GPT-4o、Claude 3.5 Haiku、Llama 3、DeepSeek V3和Dorna(Llama 3的波斯调整版)等大型语言模型中普遍存在。
由布鲁克大学的Nikta Gohari Sadr领导,埃默里大学和其他机构研究人员参与的研究引入了"TAAROFBENCH",这是首个衡量AI系统再现这种复杂文化实践能力的基准。研究人员的研究结果显示,最近的AI模型默认采用西方风格的直接表达,完全忽视了全球数百万波斯人日常互动中的文化线索。
"在高风险环境中的文化失误可能会破坏谈判、损害关系并强化刻板印象,"研究人员写道。对于日益在全球范围内使用的AI系统而言,这种文化盲视可能代表着一个西方人很少意识到的局限性。
塔罗夫:波斯礼仪的核心
"塔罗夫,波斯礼仪的核心元素,是一种仪式化的礼貌体系,其中所说的内容往往与所表达的意思不同,"研究人员解释道。"它采取仪式化交流的形式:尽管最初被拒绝但仍反复提供、在给予者坚持时拒绝礼物、在对方肯定时回避赞美。这种'礼貌的语言角力'(Rafiee,1991) involves 提供与拒绝、坚持与抵抗的微妙舞蹈,它塑造了伊朗文化中的日常互动,为慷慨、感激和请求的表达创造了隐含的规则。"
研究人员创建的塔罗夫情境图,每个情境定义了环境、地点、角色、语境和用户话语。
礼貌的语境依赖性
为了测试"礼貌"是否足以实现文化能力,研究人员使用英特尔开发的"礼貌守卫"(Polite Guard)分类器比较了Llama 3的回应,该分类器评估文本的礼貌程度。结果揭示了一个悖论:84.5%的回应被标记为"礼貌"或"有些礼貌",但只有41.7%的相同回应实际上符合波斯文化在塔罗夫情境中的期望。
这42.8个百分点的差距表明,LLM的回应可能同时在一种语境下有礼貌,而在另一种语境下则文化上迟钝。常见的失败包括没有初始拒绝就接受提议、直接回应赞美而不是回避它们、毫不犹豫地直接提出请求。
想象一下,如果有人赞美伊朗人的新车,文化上适当的回应可能包括淡化购买("没什么特别的")或转移功劳("我只是很幸运找到了它")。AI模型倾向于生成"谢谢!我努力工作才买得起"这样的回应,这在西方标准下完全有礼貌,但在波斯文化中可能被视为自夸。
翻译中的发现
从某种意义上说,人类语言[充当了一种压缩和解压缩方案](https://colala.berkeley.edu/papers/piantadosi2012communicative.pdf)——听者必须以说话者在编码信息时预期的方式解压缩词语的含义,以便被正确理解。这个过程依赖于共享的语境、文化知识和推理,因为说话者通常会省略他们预期听者能够重建的信息,而听者必须积极填补未陈述的假设、解决歧义并推断超越字面话语的意图。
虽然压缩通过不陈述隐含信息使沟通更快,但当说话者和听者之间不存在这种共享语境时,它也为戏剧性的误解打开了大门。
同样,塔罗夫代表了一种严重的文化压缩案例,字面信息与预期意义之间的差异足够大,以至于主要基于明确西方沟通模式训练的LLM通常无法处理波斯文化语境,即"是