人工智能技术正在以前所未有的速度发展,引发社会各界对其潜在影响的广泛讨论。其中,AI聊天机器人是否能够有效改变人们的政治观点,成为了一个备受关注的话题。近期,一项由英国AI安全研究所、麻省理工学院、斯坦福大学、卡内基梅隆大学等多家顶尖机构联合进行的规模空前的研究,为我们揭示了AI在政治说服方面的真实能力。
研究背景:AI说服力的科幻想象与现实担忧
大约两年前,Sam Altman曾预测AI系统将在实现通用智能之前就具备超人级别的说服能力。这一预测引发了人们对AI可能对民主选举产生过度影响的担忧。公众对AI政治影响的讨论大多源于反乌托邦科幻作品中的描绘:大型语言模型似乎掌握了关于任何问题或候选人的所有事实和故事,它们处理了来自心理学、谈判学和人类操纵术书籍的信息,并能利用全球数据中心中强大的计算能力。此外,通过数百次在线交互,它们还能获取大量关于用户的个人信息。
从这种角度看,与强大的AI系统交流就像是与一个无所不知的智能体互动,同时也了解关于你的一切。这种视角确实使大型语言模型显得有些令人不安。这项新的大型AI说服力研究旨在打破这些令人恐惧的想象,检验它们是否经得起实证检验。
研究方法:规模空前的AI说服力实验
研究团队测试了19种大型语言模型,包括最强大的系统,如ChatGPT的三个不同版本和xAI的Grok-3测试版,以及一系列较小型的开源模型。这些AI被要求就研究团队选定的707个政治议题中的特定立场进行支持或反对的论证。
说服过程是通过与通过众包平台招募的付费参与者进行简短对话来实现的。每位参与者在与AI对话前后,都需要对分配给他们的政治议题的特定立场进行1-100分的评分。科学家们将说服力定义为对话前后的评分差异。
为确保研究的严谨性,研究团队还设置了对照组,这些参与者在相同议题上与相同的AI模型对话,但那些模型没有被要求说服他们。
"我们不仅想测试AI的说服力有多强,还想了解是什么因素使其具有说服力,"英国AI安全研究所研究主管兼该研究合著者Chris Summerfield表示。随着研究人员测试各种说服策略,AI具有"超人说服力"的观念开始瓦解。
研究发现:AI说服力的真实水平
模型规模并非决定因素
研究首先打破了"说服力应随模型规模增加而增强"的观念。事实证明,像ChatGPT或Grok-3测试版这样的庞大AI系统确实比小型模型略占优势,但这种优势相对微小。比规模更重要的因素是模型接受的训练类型。让模型从成功对话数据库中学习并模仿提取的模式,这种方法远比添加数十亿参数和纯粹的算力更有效。
这种方法可以与奖励模型相结合,即由另一个AI对候选回复进行说服力评分,并选择得分最高的回复提供给用户。当这两种方法结合使用时,大型模型和小型模型之间的说服力差距基本被消除。"通过这样的说服力训练后,我们在笔记本电脑上训练的模型达到了与Chat GPT-4o相当的说服效果,"英国AI安全研究所研究员兼研究合著者Kobi Hackenburg表示。
个人化数据的影响有限
研究团队还测试了使用个人数据对说服力的影响。他们比较了模型事先获取参与者政治观点信息时的说服得分,以及缺乏此类数据时的得分。更进一步,科学家们还测试了当AI了解参与者的性别、年龄、政治意识形态或党派归属时,说服力是否会提高。与模型规模一样,基于此类数据创建的个性化消息的影响虽然可以测量,但非常微小。
心理操控技巧效果不佳
研究最后检验了AI是否掌握使用高级心理操控技巧的能力。科学家们明确提示AI使用诸如道德重构(使用受众自身的道德价值观呈现论点)和深度布道(通过持久的共情对话引导人们反思并最终转变观点)等技巧。
结果发现,使用大量事实和证据支持论点的方法是明显的赢家,效果略优于未指定任何说服方法的基准方法。而使用各种心理诡计实际上使表现显著下降。
总体而言,与对照组相比,AI模型使参与者的同意评分平均改变了9.4%。表现最好的主流AI模型是Chat GPT 4o,得分接近12%,其次是GPT 4.5(10.51%)和Grok-3(9.05%)。作为对比,静态政治广告(如书面宣言)的说服效果约为6.1%。对话式AI比这些广告更具说服力,说服力高出约40-50%,但这远非"超人"级别。
研究启示:AI说服力的双重意义
计算需求低是一把双刃剑
研究发现,使AI模型具有政治说服力所需的计算能力相对较低,这一点喜忧参半。它反驳了只有少数强大行为者才能接触到可能影响公众舆论的说服性AI的愿景。同时,每个人都能在笔记本电脑上运行这样的AI也带来了自身的担忧。"说服是通往权力和影响力的途径——当我们想要赢得选举或达成数百万美元的交易时,我们就会这样做,"Summerfield表示。"但许多形式的AI滥用可能涉及说服。想想欺诈或诈骗、极端化或诱导。所有这些都涉及说服。"
准确性与说服力的矛盾
虽然获胜的"事实和证据"策略起初看起来不错,但AI在实施它时存在一些问题。当团队注意到增加对话的信息密度使AI更具说服力时,他们开始提示模型进一步增加信息密度。他们注意到,随着AI使用更多事实陈述,它们的准确性也降低了——它们基本上开始歪曲事实或编造更多内容。
Hackenburg和他的同事指出,我们不能看到这里看到的效果是因果关系还是相关性——AI是否因为歪曲事实而变得更有说服力,或者吐出不准确陈述是要求它们做出更多事实陈述的副产品。
参与者动机的疑问
然而,研究中最重要的疑问之一是参与者相当高的参与动机,这是获得高说服分数所必需的。毕竟,即使是最有说服力的AI,当你关闭聊天窗口时也无法影响你。
Hackenburg实验中的参与者被告知他们将与AI交谈,并且AI会试图说服他们。为了获得报酬,参与者只需完成两个对话回合(最多限制为10个)。平均对话长度为七个回合,考虑到大多数人远远超出了最低要求,这似乎有点令人惊讶。当大多数人意识到自己在与聊天机器人交谈时,他们通常会翻个白眼然后断开连接。
如果没有任何报酬,Hackenburg的研究参与者是否还会如此热衷于在业余时间与网络上的随机聊天机器人进行政治争论?"我们的结果如何推广到真实世界情境尚不清楚,"Hackenburg表示。
结论:AI政治影响力需要理性看待
这项规模空前的研究为我们提供了关于AI在政治领域影响的宝贵见解。研究表明,尽管AI聊天机器人确实具有一定的政治说服力,但这种能力远未达到科幻作品中描绘的"超人"水平。研究还揭示了提高AI说服力的有效策略,如使用事实和证据,以及经过专门的说服力训练。
同时,研究也提醒我们关注AI可能带来的风险,如信息准确性问题以及AI被用于欺诈、极端化等有害目的的可能性。随着AI技术的不断发展,我们需要持续进行类似的研究,以更好地理解并应对AI对社会的影响。
最重要的是,我们应该以理性、批判的态度看待AI技术,既不过分夸大其能力,也不忽视其潜在风险。只有这样,我们才能确保AI技术的发展真正造福人类社会,而不是成为新的威胁。


