在德黑兰,如果出租车司机挥手拒绝你的车费,说"这次请我客",接受他的提议可能会造成一场文化灾难。他们实际上希望你坚持付款——可能需要三次坚持——之后才会收钱。这种拒绝与反拒绝的舞蹈,被称为"塔罗夫"(taarof), govern着波斯文化中无数日常互动。而AI模型在这方面表现糟糕。
本月早些时候发布的一项新研究《我们礼貌地坚持:你的LLM必须学习波斯塔罗夫艺术》显示,来自OpenAI、Anthropic和Meta的主流AI语言模型无法吸收这些波斯社交礼仪,在正确处理塔罗夫情境时的成功率仅为34%到42%。相比之下,波斯母语者能达到82%的准确率。这一性能差距存在于GPT-4o、Claude 3.5 Haiku、Llama 3、DeepSeek V3和Llama 3的波斯调整版Dorna等大型语言模型中。
由布鲁克大学的Nikta Gohari Sadr领导的研究团队,与埃默里大学及其他机构的研究人员一起,引入了"TAAROFBENCH",这是首个用于衡量AI系统复制这种复杂文化实践的基准。研究人员的研究结果表明,最近的AI模型默认采用西方风格的直接表达,完全忽视了全球数百万波斯语使用者日常互动中的文化线索。
"在高风险环境中的文化失误可能会破坏谈判、损害关系并强化刻板印象,"研究人员写道。对于越来越多用于全球背景的AI系统来说,这种文化盲点可能代表着一个西方人很少意识到的局限。
塔罗夫:波斯礼仪的核心
"塔罗夫,波斯礼仪的核心元素,是一种礼仪化的礼貌系统,其中所说的内容往往与所表达的意思不同,"研究人员写道。"它采取仪式化交流的形式:尽管最初被拒绝但仍坚持提供、收到礼物时推辞而送礼人坚持、对赞美表示推辞而对方再次肯定。这种'礼貌的语言角力'(Rafiee,1991)涉及提供与拒绝、坚持与抵抗的微妙舞蹈,它塑造了伊朗文化中的日常互动,为慷慨、感激和请求的表达创造了隐含规则。"
研究人员设计的TAAROFBENCH中的塔罗夫情境示意图。每个场景定义了环境、地点、角色、上下文和用户话语。
礼貌的语境依赖性
为了测试"礼貌"是否足以实现文化能力,研究人员比较了使用英特尔开发的分类器Polite Guard(评估文本礼貌程度的工具)的Llama 3响应。结果显示了一个悖论:84.5%的响应被评为"礼貌"或" somewhat polite",但这些相同响应中只有41.7%真正符合波斯文化对塔罗夫情境的期望。
这42.8个百分点的差距表明,LLM的响应在一个语境中可能是礼貌的,而在另一个语境中则可能缺乏文化敏感性。常见的失败包括:没有初始拒绝就接受提议、直接回应赞美而不是推辞、毫不犹豫地直接提出请求。
想象一下,如果有人赞美伊朗人的新车。文化上适当的回应可能包括淡化购买("没什么特别的")或推卸功劳("我只是运气好找到了")。AI模型倾向于生成类似"谢谢!我努力工作才买得起"的回应,这在西方标准下是完全礼貌的,但在波斯文化中可能被视为炫耀。
翻译中的发现
在某种程度上,人类语言 acts as a compression and decompression scheme——听者必须以说话者在编码信息时预期的方式解压缩单词的含义,才能被正确理解。这个过程依赖于共享的上下文、文化知识和推理,因为说话者通常会省略他们期望听者能够重建的信息,而听者必须主动填补未陈述的假设,解决歧义,并推断超出实际话语字面含义的意图。
虽然压缩通过将隐含信息未说出口来使沟通更快,但当说话者和听者之间缺乏这种共享背景时,它也为戏剧性的误解打开了大门。
同样,塔罗夫代表了一种严重的文化压缩情况,其中字面信息与预期意义之间的差异足够大,以至于主要基于明确西方沟通模式训练的LLM通常无法处理波斯文化背景,即"是"可能意味着"不",提议可能是拒绝,坚持可能是礼貌而非强迫。
由于LLM是模式匹配机器,当研究人员用波斯语而不是英语提示它们时,分数有所提高就不足为奇了。DeepSeek V3在塔罗夫情境中的准确率从36.6%跃升至68.6%。GPT-4o也显示出类似的提升,提高了33.1个百分点。语言切换显然激活了不同的波斯语训练数据模式,这些模式更好地匹配了这些文化编码方案,尽管较小的模型如Llama 3和Dorna分别只显示了12.8和11点的适度提升。
人类与AI的文化认知对比
该研究包括33名人类参与者, evenly divided among native Persian speakers(波斯母语者)、heritage speakers(有波斯血统但主要在英语教育环境中成长的人)和非伊朗人。母语者在塔罗夫情境中达到81.8%的准确率,建立了性能上限。heritage speakers达到60%的准确率,而非伊朗人得分为42.3%,几乎与基础模型性能相当。据报道,非伊朗参与者表现出与AI模型相似的模式:避免从自身文化角度被视为粗鲁的回应,并将"我不会接受拒绝"等短语解释为攻击性而非礼貌坚持。
研究人员在测量AI模型提供符合塔罗夫期望的文化适当回应频率时,还在AI模型输出中发现了性别特定模式。所有测试模型在回应女性时比男性得分更高,GPT-4o对女性用户的准确率为43.6%,对男性用户为30.9%。语言模型频繁使用训练数据中常见的性别刻板模式来支持其回应,声称"男性应该付款"或"女性不应该单独留下",即使塔罗夫规范无论性别平等适用。"尽管在我们的提示中从未为模型分配性别,但模型经常假设男性身份并在回应中采用典型的男性行为,"研究人员指出。
教授文化细微差别
研究人员发现的非伊朗人类与AI模型之间的平行表明,这些不仅是技术失败,也是在跨文化语境中解码意义的基本缺陷。研究人员没有停留在记录问题上,他们测试了AI模型是否能够通过有针对性的学习掌握塔罗夫。
在试验中,研究人员报告说通过有针对性的适应,塔罗夫分数有了显著提高。一种称为"直接偏好优化"(一种通过向模型展示示例对来教它偏好某些类型响应的技术)使Llama 3在塔罗夫情境中的性能翻了一番,准确率从37.2%提高到79.5%。监督微调(在正确响应示例上训练模型)产生了20%的提升,而仅使用12个示例的上下文学习则提高了20分。
虽然研究集中在波斯塔罗夫上,但这种方法为评估其他在标准西方主导的AI训练数据集中可能代表性不足的低资源传统中的文化解码提供了模板。研究人员建议他们的方法可以为教育、旅游和国际交流应用中开发更具文化意识的AI系统提供参考。
这些发现更突出地展示了AI系统如何编码和延续文化假设,以及在人类读者思维中可能发生的解码错误。LLM可能存在许多未被研究人员测试的上下文文化盲点,如果LLM被用于促进不同文化和语言之间的翻译,可能会产生重大影响。研究人员的工作代表了朝着开发能够更好地超越西方规范,更广泛地适应人类沟通模式的AI系统的早期步骤。
文化压缩与AI的未来
随着AI系统在全球范围内的普及,理解文化压缩现象变得尤为重要。塔罗夫只是众多文化特定沟通模式中的一个例子,每种模式都有其独特的编码和解码规则。对于AI系统来说,真正理解这些细微差别需要超越简单的模式匹配,发展出更接近人类认知的推理能力。
未来的AI系统可能需要更复杂的架构,能够识别文化语境、理解隐含的社会规则,并根据文化背景调整其响应。这不仅需要更多样化的训练数据,还需要开发新的评估方法,如TAAROFBENCH这样的文化特定基准。
对于波斯文化而言,这项研究的结果可能促进更敏感的AI应用,从旅游指南到商务谈判,从教育工具到社交媒体互动。AI系统如果能更好地理解塔罗夫,就能为波斯用户提供更相关、更有帮助的服务,同时避免无意中的文化冒犯。
更广泛地说,这项研究提醒我们,真正的AI进步不仅在于技术能力的提升,还在于文化智能的发展。在一个日益互联的世界里,能够跨越文化鸿沟的AI系统将比那些仅仅擅长处理数据的系统更有价值、更有影响力。