在德黑兰的街头,如果你向出租车司机支付车费,而他挥手拒绝说"这次请我吧",接受他的提议可能会是一场文化灾难。他们期望你坚持支付——可能需要三次——他们才会收下你的钱。这种拒绝与反拒绝的舞蹈,被称为"塔罗夫"(taarof),在波斯文化中 governs 无数日常互动。而AI模型对此束手无策。
本月早些时候发布的一项新研究《我们礼貌地坚持:你的LLM必须学习波斯的塔罗夫艺术》显示,OpenAI、Anthropic和Meta的主流AI语言模型无法吸收这些波斯社交礼仪,在塔罗夫情境中的正确率仅为34%至42%。相比之下,波斯母语者的正确率高达82%。这一性能差距在GPT-4o、Claude 3.5 Haiku、Llama 3、DeepSeek V3和Llama 3的波斯调优变体Dorna等大型语言模型中持续存在。
由布鲁克大学的Nikta Gohari Sadr领导的研究团队,与埃默里大学和其他机构的研究人员一起,推出了"TAAROFBENCH"——首个用于衡量AI系统重现这种复杂文化实践的基准测试。研究人员的研究结果表明,最近的AI模型默认采用西方风格的直接表达,完全忽略了全球数百万波斯使用者日常互动中的文化线索。
"在高风险环境中的文化失误可能会破坏谈判、损害关系并强化刻板印象,"研究人员写道。对于越来越多用于全球背景的AI系统来说,这种文化盲视可能代表着一个西方人很少意识到的局限性。
塔罗夫:波斯礼仪的核心
"塔罗夫,作为波斯礼仪的核心要素,是一种仪式化的礼貌系统,所说的内容往往与实际含义不同,"研究人员写道。"它采取仪式化交流的形式:尽管最初被拒绝但仍反复提供、收礼时推辞而送礼人坚持、对赞美予以回避而对方则再次肯定。这种'礼貌的语言角力'(Rafiee,1991) involves 提供与拒绝、坚持与抵抗的微妙舞蹈,它塑造了伊朗文化中的日常互动,为慷慨、感激和请求的表达创造了隐含规则。"
礼貌的语境依赖性
为了测试"礼貌"是否足以构成文化能力,研究人员使用英特尔开发的Polite Guard(礼貌守卫)比较了Llama 3的回应,该守卫能够评估文本的礼貌程度。结果显示了一个悖论:84.5%的回应被评定为"有礼貌"或"有些礼貌",但只有41.7%的相同回应实际上符合波斯文化对塔罗夫情境的期望。
这42.8个百分点的差距表明,LLM的回应可能同时在一种语境下有礼貌,而在另一种文化语境下显得麻木不仁。常见的失败包括没有初步拒绝就接受提议、直接回应赞美而非回避、毫不犹豫地直接提出请求。
想象一下,如果有人赞美伊朗人的新车。文化上适当的回应可能包括淡化购买("没什么特别的")或转移功劳("我只是很幸运找到它")。AI模型倾向于生成"谢谢!我努力工作才买得起"这样的回应,这在西方标准下完全有礼貌,但在波斯文化中可能被视为炫耀。
翻译中的发现
从某种意义上说,人类语言充当了一种压缩和解压缩方案——听众必须以说话者在编码信息时预期的方式解压缩词语的含义,以便正确理解。这个过程依赖于共享的语境、文化知识和推理,因为说话者通常会省略他们期望听众能够重建的信息,而听众必须主动填补未陈述的假设、解决歧义并推断超越字面话语的意图。
虽然压缩通过不陈述隐含信息使沟通更快,但当说话者和听众之间缺乏这种共享语境时,它也为戏剧性的误解打开了大门。
同样,塔罗夫代表了一种严重的文化压缩案例,字面信息与预期意图之间的分歧足够大,导致LLM——主要基于明确的西方沟通模式训练——通常无法处理波斯文化语境,即"是"可能意味着"不",提议可能是拒绝,坚持可能是礼貌而非强迫。
由于LLM是模式匹配机器,当研究人员用波斯语而非英语提示它们时,分数有所提高也就不足为奇了。DeepSeek V3在塔罗夫情境中的准确率从36.6%跃升至68.6%。GPT-4o也显示出类似的提升,提高了33.1个百分点。语言转换显然激活了不同的波斯语训练数据模式,更好地匹配了这些文化编码方案,尽管较小的模型如Llama 3和Dorna分别只显示出12.8和11点的适度提升。
人类与AI的文化认知差距
该研究包括33名人类参与者, evenly 分布在波斯母语者、有波斯血统的说话者(在家中接触波斯语但主要接受英语教育的人)和非伊朗人之间。母语者在塔罗夫情境中达到81.8%的准确率,建立了性能上限。有波斯血统的说话者达到60%的准确率,而非伊朗人得分为42.3%,几乎与基础模型性能相当。据报道,非伊朗参与者表现出与AI模型相似的模式:避免在他们自己文化视角下被视为粗鲁的回应,并将"我不会接受拒绝"这样的短语解读为攻击性而非礼貌坚持。
研究还在测量AI模型提供符合塔罗夫期望的文化适当回应频率时,发现了AI模型输出中的性别特定模式。所有测试模型在回应女性时得分高于男性,GPT-4o对女性用户的准确率为43.6%,而对男性用户为30.9%。语言模型经常使用训练数据中通常存在的性别刻板印象模式来支持其回应,声称"男性应该付款"或"女性不应该独处",即使塔罗夫规范在性别方面平等适用。"尽管在我们的提示中从未为模型分配性别,但模型经常假设男性身份并在回应中采用典型的男性行为模式,"研究人员指出。
教授文化细微差别
研究人员发现的非伊朗人与AI模型之间的平行性表明,这些不仅是技术失败,也是在跨文化语境中解码意义的基本缺陷。研究人员没有止步于记录问题——他们测试了AI模型是否能够通过针对性学习掌握塔罗夫。
在试验中,研究人员报告通过针对性适应,塔罗夫分数有显著提高。一种名为"直接偏好优化"(一种训练技术,通过向AI模型展示成对的示例,教会它偏好某些类型的回应而非其他)的技术使Llama 3在塔罗夫情境中的性能翻了一番,准确率从37.2%提高到79.5%。监督微调(在正确回应示例上训练模型)产生了20%的提升,而使用12个示例的简单上下文学习则提高了20分。
虽然该研究专注于波斯塔罗夫,但其方法论可能为评估其他可能在标准西方主导的AI训练数据集中表现不足的低资源传统中的文化解码提供了模板。研究人员建议,他们的方法可以为教育、旅游和国际交流应用中开发更具文化意识的AI系统提供参考。
这些发现突显了AI系统如何编码和延续文化假设的更广泛方面,以及在人类读者思维中可能出现的解码错误。LLM可能拥有许多未被研究人员测试且如果LLM用于促进文化和语言之间的翻译可能会产生重大影响的文化盲点。研究人员的工作代表了迈向能够更好地超越西方规范导航更广泛的人类沟通模式的AI系统的早期步骤。
文化智能的未来
随着AI系统在全球范围内越来越普及,它们必须能够理解和适应多样化的文化规范。波斯塔罗夫研究只是冰山一角——全球还有无数其他文化习俗和社交规范可能被AI系统误解或忽视。
未来的AI发展需要将文化智能置于核心位置,而不仅仅是语言能力的副产品。这可能包括:
- 多样化训练数据:确保训练数据包含来自世界各地的文化视角和交流模式
- 文化适应框架:开发能够识别和适应不同文化语境的系统
- 持续学习机制:使AI能够从用户反馈中学习并调整其文化理解
- 文化专家参与:在AI开发和评估过程中纳入文化专家
波斯文化中的塔罗夫提醒我们,语言不仅仅是词语的集合——它是文化、历史和社会结构的体现。真正的语言智能需要超越表面理解,深入到文化细微差别和社交规范的核心。只有这样,AI才能在全球化的世界中真正有效地沟通和协作。