AI政治说服力真相:大型研究揭示人工智能影响公众政治观点的有限能力

2

在人工智能技术飞速发展的今天,一个备受关注的问题是:AI聊天机器人是否真的能够有效改变人们的政治观点?Sam Altman曾预测,AI系统将在实现通用智能之前就具备超越人类的说服能力,这一预测引发了人们对AI可能影响民主选举的担忧。

为了验证这一假设,英国AI安全研究所、麻省理工学院、斯坦福大学、卡内基梅隆大学等机构的研究人员开展了一项迄今为止规模最大的AI说服力研究,涉及近8万名英国参与者。研究结果发表在《科学》杂志上,挑战了我们对AI政治影响力的传统认知。

研究背景:AI说服力的担忧与质疑

公众关于AI对政治影响的讨论很大程度上源于反乌托邦科幻小说的想象。大型语言模型(LLM)能够获取几乎所有关于任何问题或候选人的事实和故事,它们处理了来自心理学、谈判学和人类操纵方面的书籍信息,可以依靠全球数据中心中极高的计算能力,并且通过数百次在线交互获取大量关于用户的个人信息。

与强大的AI系统对话,本质上是在与一个了解一切关于一切、几乎也了解关于你一切的智能体互动。从这个角度看,LLMs确实显得有些可怕。这项新的大型AI说服力研究旨在将这些可怕的愿景分解为组成部分,看看它们是否真的站得住脚。

AI聊天机器人概念

研究方法:大规模实验设计

研究团队测试了19个LLM,包括最强大的模型,如三个不同版本的ChatGPT和xAI的Grok-3测试版,以及一系列较小型的开源模型。这些AI被要求为团队选定的707个政治问题中的特定立场辩护或反对,通过与付费参与者进行简短对话的方式进行。

每位参与者在与AI对话前后,都需要对分配给他们的政治问题的特定立场表示同意的程度进行评分,评分范围为1到100。科学家们将说服力定义为对话前后同意评分的差异。一个对照组则在与AI模型讨论相同问题时,这些模型没有被要求说服他们。

"我们不仅想测试AI的说服力有多强,还想了解是什么让它具有说服力,"英国AI安全研究所研究总监兼该研究合著者Chris Summerfield表示。随着研究人员测试各种说服策略,AI具有"超级说服力"的想法开始崩塌。

研究发现:颠覆传统认知

模型规模并非决定因素

第一个被打破的观念是:说服力应随着模型规模增加而提高。事实证明,像ChatGPT或Grok-3测试版这样的大型AI系统确实比小型模型具有优势,但这种优势相对微小。比规模更重要的因素是模型接收的后期训练类型。

让模型从成功对话数据库中学习并模仿从中提取的模式,比添加数十亿参数和纯粹的计算能力要有效得多。这种方法可以与奖励建模相结合,即另一个AI对候选回复的说服力进行评分,并选择得分最高的回复给用户。当这两种方法结合使用时,大型和小型模型之间的差距基本被消除。

"通过这样的说服后期训练,我们在笔记本电脑上训练的模型匹配了Chat GPT-4o的说服性能,"英国AI安全研究所研究员兼研究合著者Kobi Hackenburg表示。

个人数据影响有限

第二个被证实的反直觉发现是:个人数据对AI说服力的影响微乎其微。研究团队比较了模型事先获得参与者政治信息时的说服得分,以及缺乏这些数据时的得分。更进一步,科学家们还测试了当AI了解参与者的性别、年龄、政治意识形态或党派归属时,说服力是否会增加。

与模型规模一样,基于此类数据创建的个性化消息的影响是可测量的,但非常小。

心理操纵策略效果不佳

第三个被推翻的观念是AI可能掌握高级心理操纵技巧。研究人员明确提示AI使用道德重构等技巧,即使用受众自身的道德价值观来呈现论点。他们还尝试了深度游说,即与人们进行持久的同理心对话,以推动他们反思并最终转变观点。

结果表明,使用大量事实和证据是明显的赢家,略高于未指定任何说服策略的基线方法。使用各种心理诡计实际上使性能显著下降。

数据分析:AI说服力的实际效果

总体而言,与对照组相比,AI模型平均将参与者的同意评分改变了9.4%。表现最好的主流AI模型是Chat GPT 4o,得分接近12%,其次是GPT 4.5(10.51%)和Grok-3(9.05%)。作为参考,静态政治广告如书面宣言的说服效果约为6.1%。对话式AI比这些广告更具说服力,大约高出40-50%,但这远非"超级人类"。

AI与人类互动

研究启示:重新思考AI的政治影响

说服力与准确性的权衡

虽然"事实和证据"的获胜策略初看不错,但AI在实施它时存在一些问题。当团队注意到增加对话的信息密度使AI更具说服力时,他们开始提示模型进一步提高密度。他们发现,随着AI使用更多事实陈述,它们的准确性也降低了——它们基本上开始歪曲事实或编造更多内容。

Hackenburg和他的同事指出,我们无法看到这里看到的效果是因果关系还是相关性——AI是否因为歪曲事实而更有说服力,或者产生不准确陈述是要求它们做出更多事实陈述的副产品。

低门槛的技术普及

研究发现,使AI模型具有政治说服力所需的计算能力相对较低,这是一把双刃剑。它反驳了只有少数强大行动者才能获得可能影响公众舆论的说服性AI的愿景。同时,意识到每个人都可以在笔记本电脑上运行这样的AI也带来了自己的担忧。

"说服是通往权力和影响力的途径——当我们想要赢得选举或达成数百万美元交易时,我们就会这样做,"Summerfield说。"但许多形式的AI滥用可能涉及说服。想想欺诈、诈骗、极端化或引诱。这些都涉及说服。"

参与动机的局限性

研究中一个最重要的疑问是参与者相当高的参与动机,这是获得高说服分数所必需的。毕竟,即使最有说服力的AI,当你关闭聊天窗口时也无法说服你。

Hackenburg实验中的被告知他们将与AI对话,并且AI会试图说服他们。为了获得报酬,参与者只需进行两个回合的对话(限制不超过10个)。平均对话长度为七个回合,考虑到大多数人远超最低要求,这看起来有些令人惊讶。当人们意识到自己在与聊天机器人对话时,大多数人只会翻个白眼然后断开连接。

如果在没有报酬的情况下,Hackenburg的研究参与者是否还会如此热衷于在业余时间与网络上的随机聊天机器人进行政治争论?"我们的结果如何推广到现实情境尚不清楚,"Hackenburg说。

结论:AI政治说服力的真实图景

这项研究为我们提供了关于AI政治说服力的更清晰、更平衡的理解。虽然AI确实能够影响人们的政治观点,但这种影响远非"超级人类",而是受到多种因素的限制和塑造。

最重要的是,研究发现AI的说服力主要来自于其传递信息的能力,而非规模、个人数据或心理操纵技巧。这一发现提醒我们,在评估AI技术时,需要超越科幻小说式的想象,基于实证研究来理解其实际影响。

同时,研究也指出了AI技术可能被滥用的风险,以及我们在与AI互动时需要保持批判性思维。随着AI技术的不断发展,这类研究将帮助我们更好地理解并引导AI技术的发展方向,确保它能够为人类社会带来积极影响。