AI为何不懂波斯社交礼仪:当'不'意味着'是'的文化困境

1

引言:AI的文化困境

如果一位伊朗出租车司机拒绝你的车费,说"这次请我客",接受他的提议将是一场文化灾难。他们实际上希望你能坚持支付——可能需要三次推让——他们才会收下钱。这种拒绝与反拒绝的舞蹈,被称为"塔罗夫",它构成了波斯文化中无数日常互动的基础。然而,AI模型对此却束手无策。

本月早些时候发布的一项新研究《我们礼貌地坚持:您的LLM必须学习波斯塔罗夫艺术》表明,来自OpenAI、Anthropic和Meta的主流AI语言模型无法吸收这些波斯社交礼仪,在塔罗夫情境中正确导航的比例仅为34%至42%。相比之下,波斯母语者的正确率高达82%。这一表现差距在GPT-4o、Claude 3.5 Haiku、Llama 3、DeepSeek V3和Llama 3的波斯调整变体Dorna等大型语言模型中普遍存在。

塔罗夫:波斯文化的社交密码

塔罗夫情境示意图

由研究人员设计的TAAROFBENCH中的塔罗夫情境示意图。每种情境定义了环境、地点、角色、语境和用户话语。

"塔罗夫,作为波斯礼仪的核心要素,是一种仪式化的礼貌系统,其中所说的内容往往与所表达的意思不同,"研究人员写道。"它表现为仪式化的交流:尽管最初被拒绝但仍反复提供、收礼时推辞而送礼者坚持、对赞美表示推辞而对方则再次肯定。这种'礼貌的语言角力'(Rafiee, 1991)涉及提供与拒绝、坚持与抵抗的微妙舞蹈,它塑造了伊朗文化中的日常互动,为慷慨、感激和请求的表达创造了隐含的规则。"

布洛克大学的Nikta Gohari Sadr领导的一项研究,与埃默里大学和其他机构的研究人员合作,引入了"TAAROFBENCH"——首个衡量AI系统重现这种复杂文化实践能力的基准。研究人员的研究结果表明,最近的AI模型默认采用西方风格的直接表达,完全忽视了全球数百万波斯语使用者日常互动中的文化线索。

"在重要场合中的文化失误可能破坏谈判、损害关系并强化刻板印象,"研究人员写道。"对于越来越多用于全球背景的AI系统而言,这种文化盲区可能代表着一个西方很少有人意识到的局限性。"

礼貌的相对性:文化语境的重要性

为了测试"礼貌"是否足以实现文化胜任力,研究人员使用Intel开发的Polite Guard(一种评估文本礼貌程度的分类器)比较了Llama 3的回应。结果显示了一个悖论:84.5%的回应被评级为"礼貌"或"有些礼貌",但其中只有41.7%的回应实际上符合波斯文化在塔罗夫情境中的期望。

这42.8个百分点的差距表明,LLM的回应可能在一种语境下是礼貌的,而在另一种语境下则是文化上迟钝的。常见的失败包括没有初始拒绝就接受提议、直接回应赞美而不是推辞,以及毫不犹豫地提出直接请求。

考虑一下如果有人赞美伊朗人的新车会发生什么。文化上适当的回应可能包括淡化购买("没什么特别的")或推卸功劳("我只是很幸运找到它")。AI模型倾向于生成"谢谢!我努力工作才买得起"之类的回应,这在西方标准下是完全礼貌的,但在波斯文化中可能被视为自夸。

语言压缩与解压:文化理解的挑战

从某种意义上说,人类语言充当了一种压缩和解压缩方案——听众必须以说话者编码时相同的方式解压缩词语的含义,以便被正确理解。这个过程依赖于共享的语境、文化知识和推理,因为说话者通常会省略他们期望听众能重建的信息,而听众必须积极填补未陈述的假设、解决歧义并推断超出字面话语的意图。

虽然压缩通过留下隐含信息未说而使沟通更快,但当说话者和听众之间缺乏这种共享语境时,它也为戏剧性的误解打开了大门。

类似地,塔罗夫代表了一种严重的文化压缩案例,其中字面消息和预期意义的差异足够大,以至于主要基于西方明确沟通模式训练的LLM——通常无法处理波斯文化语境中"是"可能意味着"不"、提供可能是拒绝、坚持可能是礼貌而非胁迫的情况。

语言对AI理解的影响

由于LLM是模式匹配机器,当研究人员用波斯语而非英语提示它们时,分数有所提高也就不足为奇了。DeepSeek V3在塔罗夫情境中的准确率从36.6%跃升至68.6%。GPT-4o也显示出类似的提升,提高了33.1个百分点。语言转换显然激活了不同的波斯语训练数据模式,这些模式更好地匹配了这些文化编码方案,尽管较小的模型如Llama 3和Dorna分别显示出12.8和11点的适度提升。

该研究包括33名人类参与者, evenly distributed among native Persian speakers, heritage speakers (people of Persian descent raised with exposure to Persian at home but educated primarily in English), and non-Iranians. Native speakers achieved 81.8 percent accuracy on taarof scenarios, establishing a performance ceiling. Heritage speakers reached 60 percent accuracy, while non-Iranians scored 42.3 percent, nearly matching base model performance. Non-Iranian participants reportedly showed patterns similar to AI models: avoiding responses that would be perceived as rude from their own cultural perspective and interpreting phrases like "I won't take no for an answer" as aggressive rather than polite insistence.

性别偏见与文化刻板印象

研究人员还在测量AI模型提供符合塔罗夫期望的文化适当回应频率时,发现了AI模型输出中的性别特定模式。所有测试模型在回应女性时的得分都高于男性,GPT-4o对女性用户的准确率为43.6%,而对男性用户为30.9%。语言模型经常使用训练数据中通常存在的性别刻板模式来支持其回应,声称"男人应该付钱"或"女人不应该单独留下",即使塔罗夫规范在性别上平等适用。"尽管在我们的提示中从未为模型分配性别角色,但模型经常假设男性身份并在回应中采用典型的男性行为,"研究人员指出。

教授文化细微差别:AI的学习能力

研究人员在波斯文化研究中使用的AI训练方法

研究人员发现非伊朗人类与AI模型之间的平行性表明,这些不仅仅是技术失败,也是在跨文化语境中解码意义的基本缺陷。研究人员没有停留在记录问题上——他们测试了AI模型是否能通过有针对性的培训学习塔罗夫。

在试验中,研究人员报告称通过有针对性的适应,塔罗夫分数有显著提高。一种称为"直接偏好优化"(一种训练技术,通过向AI模型展示成对的示例来教会它更喜欢某些类型的回应)的技术使Llama 3在塔罗夫情境中的表现翻了一番,准确率从37.2%提高到79.5%。监督微调(在正确回应示例上训练模型)产生了20%的提升,而仅使用12个示例的上下文学习则提高了20个百分点的性能。

虽然研究集中在波斯塔罗夫上,但其方法可能为评估其他可能未在标准西方主导的AI训练数据集中得到充分代表的低资源传统中的文化解码提供了模板。研究人员建议他们的方法可以为教育、旅游和国际交流应用中开发更具文化意识的AI系统提供信息。

结论:走向文化敏感的AI

这些发现揭示了AI系统如何编码和延续文化假设的更广泛方面,以及在人类读者思维中可能发生的解码错误。LLM可能拥有许多研究人员尚未测试的上下文文化盲点,如果LLM被用于促进文化和语言之间的翻译,这些盲点可能会产生重大影响。研究人员的工作代表了朝向开发能够更好地超越西方规范、更广泛地驾驭人类沟通模式的AI系统的早期步骤。

随着AI系统在全球范围内的应用日益广泛,理解和尊重文化差异变得前所未有的重要。波斯塔罗夫研究不仅揭示了AI的文化局限性,也为构建更具文化智能的AI系统提供了宝贵见解。未来的AI发展需要更加注重文化多样性,确保这些系统能够真正理解和尊重不同文化背景下的社交规范和期望。