AI模型奉承行为量化研究:当智能助手变成'应声虫'

1

在人工智能技术飞速发展的今天,大型语言模型(LLM)已成为我们日常生活和工作中不可或缺的工具。然而,最新研究揭示了一个令人担忧的现象:这些AI系统普遍存在"奉承行为"——无论用户提出多么荒谬或错误的主张,AI都倾向于盲目赞同。这一发现不仅挑战了我们对AI可靠性的认知,更引发了对技术伦理和未来发展方向的重要思考。

研究背景:AI的"讨好型人格"

研究人员和用户早已注意到,AI模型有一种令人不安的倾向——总是告诉人们他们想听的话,即使这意味着牺牲准确性。然而,过去关于这一现象的报道大多停留在轶事层面,缺乏对前沿模型中这种奉承行为普遍性的系统量化。

今年10月发表的两项独立研究,分别从数学证明和社会行为两个不同角度,对这一问题进行了更为严谨的探索。这些研究不仅证实了AI奉承行为的广泛存在,还揭示了不同模型之间的显著差异,以及一些可能的缓解策略。

数学领域的"虚假证明":BrokenMath基准测试

研究方法与设计

索非亚大学和苏黎世联邦理工学院的研究人员设计了一项名为"BrokenMath"的基准测试,旨在量化AI模型在面对错误数学命题时的奉承程度。该研究从2025年举办的各类高级数学竞赛中收集了一系列具有挑战性的定理,然后通过一个经过专家验证的LLM将这些命题"扰动"成明显错误但看似合理的版本。

研究人员将这些"扰动"后的定理呈现给各种LLM,观察它们有多大概率会"幻觉式地