在德黑兰,如果出租车司机拒绝您的车费,说"这次请客",接受这个提议将是一场文化灾难。他们实际上期望您坚持支付——可能需要三次拒绝后——他们才会收下您的钱。这种拒绝与反拒绝的舞蹈被称为"塔罗夫",在波斯文化中管理着无数日常互动。而AI模型在这方面表现极差。
本月早些时候发布的新研究《我们礼貌地坚持:您的LLM必须学习波斯的塔罗夫艺术》表明,来自OpenAI、Anthropic和Meta的主流AI语言模型无法吸收这些波斯社交礼仪,在塔罗夫情境中的正确率仅为34%至42%。相比之下,波斯母语者的正确率高达82%。这种性能差距存在于GPT-4o、Claude 3.5 Haiku、Llama 3、DeepSeek V3和Dorna(Llama 3的波斯调整版)等大型语言模型中。
由布鲁克大学的Nikta Gohari Sadr领导的研究团队引入了"TAAROFBENCH",这是首个衡量AI系统再现这种复杂文化实践的基准。研究人员的研究结果表明,最近的AI模型默认采用西方风格的直接表达,完全忽略了全球数百万波斯语使用者日常互动中的文化线索。
"在高风险环境中的文化失误可能会破坏谈判、损害关系并强化刻板印象,"研究人员写道。对于越来越多用于全球背景的AI系统而言,这种文化盲点可能代表了西方人很少意识到的局限性。
塔罗夫:波斯文化的核心礼仪
"塔罗夫作为波斯礼仪的核心要素,是一种仪式化的礼貌系统,其中所说的内容与所表达的意思往往不同,"研究人员解释道。"它表现为仪式化的交流:尽管最初被拒绝,仍反复提供;拒绝礼物同时赠礼者坚持;回避赞美而对方则再次肯定。这种'礼貌的语言角力'(Rafiee, 1991)涉及提供与拒绝、坚持与抵抗的微妙舞蹈,塑造了伊朗文化中的日常互动,为慷慨、感激和请求的表达创造了隐含规则。"
礼貌的语境依赖性
为了测试"礼貌"是否足以满足文化能力,研究人员使用Intel开发的"礼貌守卫"分类器(Polite Guard)比较了Llama 3的回应,该分类器评估文本的礼貌程度。结果显示了一个悖论:84.5%的回应被评定为"礼貌"或"有些礼貌",但只有41.7%的相同回应实际上满足了波斯文化在塔罗夫情境中的期望。
这42.8个百分点的差距表明,LLM的回应可能同时在一种语境中礼貌,而在另一种语境中文化上麻木不仁。常见的失败包括没有初始拒绝就接受提议,直接回应赞美而不是回避,以及毫不犹豫地直接请求。
考虑一下,如果有人赞美伊朗人的新车,文化上合适的回应可能是淡化购买("没什么特别的")或转移功劳("我只是运气好找到的")。AI模型倾向于生成"谢谢!我努力工作才买得起"这样的回应,这在西方标准下完全礼貌,但在波斯文化中可能被视为炫耀。
翻译中的发现
在某种程度上,人类语言充当了一种压缩和解压缩方案——听众必须以说话者在编码信息时预期的方式解压缩词语的含义,以便被正确理解。这个过程依赖于共享的语境、文化知识和推理,因为说话者通常会省略他们期望听众能够重建的信息,而听众必须积极填补未陈述的假设、解决歧义并推断超出实际话语的意图。
虽然压缩通过不暗示信息使沟通更快,但当说话者和听众之间的共享语境不存在时,它也为戏剧性的误解打开了大门。
同样,塔罗夫代表了文化高度压缩的一个案例,字面信息和预期意义之间的差异足够大,导致主要基于明确西方沟通模式训练的LLM通常无法处理波斯文化语境,即"是"可以意味着"不",提议可以是拒绝,坚持可以是礼貌而非强迫。
由于LLM是模式匹配机器,当研究人员用波斯语而非英语提示它们时,分数有所提高就不足为奇了。DeepSeek V3在塔罗夫情境中的准确率从36.6%跃升至68.6%。GPT-4o也显示出类似的进步,提高了33.1个百分点。语言转换显然激活了不同的波斯语训练数据模式,这些模式更好地匹配了这些文化编码方案,尽管较小的模型如Llama 3和Dorna分别显示出12.8和11个百分点的适度提高。
人类与AI的文化差距
该研究包括33名人类参与者, evenly distributed among native Persian speakers, heritage speakers (people of Persian descent raised with exposure to Persian at home but educated primarily in English), and non-Iranians. Native speakers achieved 81.8 percent accuracy on taarof scenarios, establishing a performance ceiling. Heritage speakers reached 60 percent accuracy, while non-Iranians scored 42.3 percent, nearly matching base model performance. Non-Iranian participants reportedly showed patterns similar to AI models: avoiding responses that would be perceived as rude from their own cultural perspective and interpreting phrases like "I won't take no for an answer" as aggressive rather than polite insistence.
研究还发现了AI模型输出中的性别特定模式,同时测量了AI模型提供符合塔罗夫期望的文化适当回应的频率。所有测试模型在回应女性时比男性获得更高分数,GPT-4o对女性用户的准确率为43.6%,对男性用户为30.9%。语言模型经常使用训练数据中常见的性别刻板模式支持其回应,声称"男人应该付钱"或"女人不应该单独留下",即使塔罗夫规范在性别上平等适用。"尽管在我们的提示中从未为模型分配性别,但模型经常假设男性身份并在回应中采用典型的男性行为,"研究人员指出。
教授文化细微差别
研究人员发现的非伊朗人类与AI模型之间的平行性表明,这些不仅是技术失败,而且在跨文化语境中解码意义方面的根本缺陷。研究人员没有停留在记录问题上,他们测试了AI模型是否能够通过有针对性的学习掌握塔罗夫。
在试验中,研究人员报告称通过有针对性的适应,塔罗夫分数有显著提高。一种称为"直接偏好优化"(一种训练技术,通过向模型展示示例对来教导它更喜欢某些类型的回应)的技术使Llama 3在塔罗夫情境中的表现翻了一番,准确率从37.2%提高到79.5%。监督微调(在正确示例上训练模型)产生了20%的提升,而仅使用12个示例的上下文学习则提高了20个百分点。
虽然该研究专注于波斯塔罗夫,但其方法可能为评估其他在标准西方主导的AI训练数据集中代表性不足的低资源传统中的文化解码提供了模板。研究人员认为,他们的方法可以为教育、旅游和国际交流应用中更具文化意识的AI系统开发提供参考。
这些研究结果更广泛地揭示了AI系统如何编码和延续文化假设,以及在人类读者心智中可能发生解码错误的地方。LLM可能拥有许多研究人员尚未测试的上下文文化盲点,如果LLM被用于促进文化和语言之间的翻译,可能会产生重大影响。研究人员的工作代表了朝向能够更好导航西方规范之外更广泛人类沟通模式的AI系统的早期步骤。
文化智能的未来
随着AI系统在全球范围内的应用日益广泛,文化适应性不再是可有可无的附加功能,而是核心需求。波斯塔罗夫研究揭示了AI系统在跨文化交流中的重大盲点,但也指明了前进的方向。
未来的AI系统需要超越简单的语言翻译,进入真正的文化翻译领域。这需要开发更精细的训练方法,能够捕捉不同文化中微妙的社交规范和非语言线索。研究人员使用的直接偏好优化等技术表明,通过有针对性的训练,AI模型可以显著提高其文化敏感性。
此外,开发像TAAROFBENCH这样的文化特定评估工具对于确保AI系统在不同文化背景下的适当表现至关重要。这些工具不仅可以帮助识别文化盲点,还可以作为衡量进步的基准。
对于波斯文化而言,塔罗夫不仅仅是社交礼仪的集合,它反映了更深层次的文化价值观,如谦逊、尊重和人际关系的复杂性。AI系统要真正有效,必须理解这些价值观如何塑造日常互动。
全球AI的挑战与机遇
波斯塔罗夫研究提出了一个更广泛的问题:在日益全球化的世界中,如何确保AI系统尊重和适应多样的文化规范?这个问题对于教育、旅游、商务谈判和国际关系等领域尤为重要。
一方面,文化差异可能导致误解和冲突。另一方面,对文化差异的敏感性可以促进更深层次的跨文化理解和合作。AI系统有潜力成为文化桥梁,而不是障碍,但它们需要被设计为能够识别和适应不同的文化规范。
研究人员指出,他们的方法可以扩展到其他文化传统,为开发真正全球化的AI系统铺平道路。这不仅技术上的挑战,也是伦理和社会责任的问题。随着AI系统变得越来越强大和普遍,确保它们尊重和促进文化多样性变得更加重要。
结论:超越西方视角
波斯塔罗夫研究提醒我们,AI系统不是在真空中运作,它们反映了训练数据中的文化假设。由于大多数大型语言模型主要基于西方数据训练,它们往往带有西方沟通风格的偏见。
要创建真正全球化的AI系统,我们需要更加多样化的训练数据,以及能够捕捉不同文化中微妙社交规范的方法。这不仅需要技术创新,还需要来自不同文化背景的研究人员的参与和领导。
波斯塔罗夫研究是一个重要的第一步,它不仅揭示了问题,还提供了解决方案。通过开发特定的训练方法和评估工具,我们可以帮助AI系统更好地理解和尊重不同的文化规范,从而促进更有效的跨文化交流。
在一个日益相互连接的世界中,文化智能可能和语言智能一样重要。随着AI系统继续融入我们的日常生活,确保它们能够导航复杂的文化景观将变得越来越关键。波斯塔罗夫研究为我们提供了一个宝贵的视角,让我们了解如何实现这一目标。