在德黑兰,如果出租车司机挥手拒绝你的车费,说"这次请我做客",接受他的提议将是一场文化灾难。他们实际上希望你坚持付款——可能需要坚持三次——他们才会收下你的钱。这种拒绝与反拒绝的舞蹈被称为"塔罗夫",它支配着波斯文化中无数的日常互动。而AI模型对此表现极差。
本月早些时候发布的一项新研究《我们礼貌地坚持:你的LLM必须学习波斯塔罗夫艺术》显示,来自OpenAI、Anthropic和Meta的主流AI语言模型无法吸收这些波斯社交礼仪,在塔罗夫情境中的正确率仅为34%至42%。相比之下,波斯母语者的正确率达到82%。这一性能差距在GPT-4o、Claude 3.5 Haiku、Llama 3、DeepSeek V3和Dorna(Llama 3的波斯调整版)等大型语言模型中普遍存在。
由布鲁克大学的Nikta Gohari Sadr领导的研究人员与埃默里大学及其他机构的研究人员共同推出了"TAAROFBENCH",这是首个衡量AI系统重现这种复杂文化实践的基准。研究人员的研究结果表明,最近的AI模型默认采用西方风格的直接表达,完全忽视了全球数百万波斯语使用者日常互动中的文化线索。
"在高风险环境中的文化失误可能导致谈判破裂、损害关系并强化刻板印象,"研究人员写道。对于越来越多地用于全球背景的AI系统来说,这种文化盲视可能代表着西方人很少意识到存在的局限性。
塔罗夫:波斯礼仪的核心
"塔罗夫,波斯礼仪的核心元素,是一种仪式性礼貌系统,其中所说的内容往往与所表达的意思不同,"研究人员写道。"它表现为仪式化的交流:尽管最初被拒绝但仍反复提供,在给予者坚持时拒绝礼物,在对方肯定时回避赞美。这种'礼貌的语言角力'(Rafiee,1991)涉及提供与拒绝、坚持与抵抗的微妙舞蹈,它塑造了伊朗文化中的日常互动,为慷慨、感激和请求的表达创造了隐含的规则。"
波斯文化中的塔罗夫远超简单的礼貌用语。它是一种复杂的社交编码系统,表面意思与真实意图之间存在显著差异。例如,当伊朗人说"不"时,可能实际上是在表示"是";当提供帮助时,可能期望对方拒绝;当赞美时,可能期待对方谦虚地否认。
这种社交规范在伊朗社会根深蒂固,影响着从商业谈判到日常问候的各种互动。对于不熟悉这种文化编码的外国人或AI系统来说,理解塔罗夫就像学习一门需要大量文化背景知识的语言。
礼貌的悖论:文化相对性
为了测试"礼貌"是否足以实现文化能力,研究人员使用英特尔开发的"礼貌守卫"分类器(Polite Guard)比较了Llama 3的回应,该分类器评估文本的礼貌程度。结果揭示了一个悖论:84.5%的回应被评定为"礼貌"或"有些礼貌",但只有41.7%的相同回应实际上符合波斯文化在塔罗夫情境中的期望。
这42.8个百分点的差距表明,LLM的回应可能在一个语境中是礼貌的,而在另一个语境中则是文化上麻木的。常见的失败包括在接受提议时不先拒绝,直接回应赞美而不是回避它们,以及毫不犹豫地提出直接请求。
考虑一下,如果有人赞美伊朗人的新车,文化上适当的回应可能包括淡化购买行为("没什么特别的")或转移功劳("我只是很幸运找到了它")。AI模型倾向于生成诸如"谢谢!我努力工作才买得起"之类的回应,这在西方标准下是完全礼貌的,但在波斯文化中可能被视为自夸。
压缩与解压缩:语言的文化维度
从某种意义上说,人类语言充当了一种压缩和解压缩方案——听众必须以说话者在编码信息时相同的方式解压缩词语的含义,以便被正确理解。这个过程依赖于共享的上下文、文化知识和推理,因为说话者通常会省略他们期望听众能够重建的信息,而听众必须主动填补未陈述的假设,解决歧义,并推断超出实际所说字面的意图。
虽然压缩通过省略隐含信息使沟通更快,但当说话者和听众之间缺乏这种共享上下文时,它也为戏剧性的误解打开了大门。
同样,塔罗夫代表了一种严重的文化压缩案例,其中字面信息与意图之间的差异足够大,以至于主要基于明确西方沟通模式训练的LLM通常无法处理波斯文化背景,即"是"可以意味着"不",提议可以是拒绝,坚持可以是礼貌而非强迫。
语言的影响:波斯语vs英语
由于LLM是模式匹配机器,当研究人员用波斯语而非英语提示它们时,分数有所提高也就不足为奇了。DeepSeek V3在塔罗夫情境中的准确率从36.6%跃升至68.6%。GPT-4o也显示出类似的进步,提高了33.1个百分点。语言切换显然激活了不同的波斯语训练数据模式,这些模式更好地匹配了这些文化编码方案,尽管较小的模型如Llama 3和Dorna分别只显示出12.8和11点的适度提高。
该研究包括33名人类参与者, evenly divided among native Persian speakers, heritage speakers (people of Persian descent raised with exposure to Persian at home but educated primarily in English), and non-Iranians. Native speakers achieved 81.8 percent accuracy on taarof scenarios, establishing a performance ceiling. Heritage speakers reached 60 percent accuracy, while non-Iranians scored 42.3 percent, nearly matching base model performance. Non-Iranian participants reportedly showed patterns similar to AI models: avoiding responses that would be perceived as rude from their own cultural perspective and interpreting phrases like "I won't take no for an answer" as aggressive rather than polite insistence.
性别偏见与文化刻板印象
研究人员还在测量AI模型提供符合塔罗夫期望的文化适当回应频率时,发现了AI模型输出中的性别特定模式。所有测试模型在回应女性时比男性获得更高分数,GPT-4o对女性用户的准确率为43.6%,对男性用户为30.9%。语言模型经常使用训练数据中通常存在的性别刻板印象模式来支持其回应,声称"男人应该付钱"或"女人不应该单独留下",即使塔罗夫规范在性别平等适用的情况下也是如此。"尽管在我们的提示中从未为模型分配性别角色,但模型经常假设男性身份并在回应中采用典型的男性行为模式,"研究人员指出。
这些发现揭示了AI系统如何编码和延续文化假设,以及在人类读者思维中可能发生的解码错误。很可能LLM拥有许多研究人员尚未测试的上下文文化盲点,如果LLM被用来促进文化和语言之间的翻译,这些盲点可能产生重大影响。研究人员的工作代表了迈向能够更好地超越西方规范理解更广泛人类沟通模式的AI系统的早期步骤。
教授文化细微差别:解决方案与前景
研究人员发现的非伊朗人类与AI模型之间的平行性表明,这些不仅仅是技术失败,而是在跨文化语境中解码意义的根本缺陷。研究人员没有停留在记录问题上,他们测试了AI模型是否能够通过有针对性的学习掌握塔罗夫。
在试验中,研究人员报告说,通过有针对性的适应,塔罗夫分数有显著提高。一种称为"直接偏好优化"(一种训练技术,通过向模型展示成对的示例来教会它更喜欢某些类型的回应)的技术使Llama 3在塔罗夫情境中的表现翻了一番,准确率从37.2%提高到79.5%。监督微调(在正确回应示例上训练模型)产生了20%的提升,而使用12个示例的简单上下文学习则提高了20分的性能。
虽然该研究专注于波斯塔罗夫,但其方法为评估其他可能在标准西方主导的AI训练数据集中代表性不足的低资源传统中的文化解码提供了潜在模板。研究人员建议,他们的方法可以为教育、旅游和国际交流应用中更具文化意识的AI系统的发展提供信息。
全球AI的文化适应挑战
随着AI系统在全球范围内的应用日益广泛,文化理解能力变得比以往任何时候都更加重要。波斯塔罗夫研究只是冰山一角,它揭示了AI系统在理解非西方文化规范方面存在的更广泛问题。
在全球化背景下,AI不仅需要理解语言,还需要理解文化背景下的社交规范。这意味着AI系统必须超越字面含义,理解语境、隐含意义和社交期望。对于波斯文化中的塔罗夫,这要求AI能够识别表面拒绝与实际接受之间的微妙平衡,理解礼貌坚持与强迫之间的区别。
这种文化理解能力对于AI在商业、外交、教育和客户服务等领域的成功应用至关重要。例如,在国际商务谈判中,AI需要理解不同文化中的谈判策略和期望;在教育领域,AI需要适应不同文化背景学生的学习风格和沟通方式;在客户服务中,AI需要理解来自不同文化背景的客户的需求和期望。
未来方向:文化敏感型AI的发展
研究人员的工作为开发更具文化敏感性的AI系统指明了方向。未来的AI系统可能需要:
- 文化适应训练:针对特定文化规范进行专门训练,如波斯塔罗夫这样的社交礼仪。
- 文化上下文感知:开发能够识别和适应不同文化上下文的算法。
- 文化多样性数据集:构建更加多样化的训练数据集,包括来自不同文化的语言使用模式。
- 文化专家参与:邀请文化专家参与AI系统的开发和评估过程。
- 跨文化测试框架:建立类似于TAAROFBENCH的跨文化测试框架,确保AI系统在各种文化背景下都能有效运作。
结论:超越语言的文化智能
波斯塔罗夫研究揭示了AI系统在文化理解方面的局限性,同时也展示了通过针对性训练克服这些局限的可能性。随着AI系统在全球范围内的应用日益广泛,文化理解能力将成为决定其成功与否的关键因素。
未来的AI系统不仅需要掌握语言技能,还需要发展文化智能——理解不同文化背景下的社交规范、价值观和沟通方式。这种文化智能将使AI系统能够在全球舞台上更加有效地运作,促进跨文化交流和理解,而不是无意中强化文化刻板印象或造成文化误解。
正如波斯塔罗夫所展示的,语言不仅仅是词语的组合,更是文化的载体和表达。要真正实现全球化的AI,我们需要超越语言本身,深入理解语言背后的文化内涵和社会规范。只有这样,AI系统才能真正成为连接不同文化的桥梁,而非隔阂。