人工智能技术的快速发展引发了关于其政治影响力的广泛讨论。一项最新研究为我们揭示了AI聊天机器人在政治说服方面的真实能力,挑战了许多科幻作品中描绘的AI操控公众观念的夸张场景。
超级人类说服力的迷思
大约两年前,Sam Altman曾预测AI系统将在实现通用智能之前就具备超级人类的说服能力。这一预测引发了人们对AI可能影响民主选举的担忧。为了验证这一观点,英国AI安全研究所、麻省理工学院、斯坦福大学、卡内基梅隆大学等多家机构的科学家进行了迄今为止规模最大的AI说服力研究。
这项研究涉及近8万名英国参与者,测试了19种不同的语言模型,包括ChatGPT的三个不同版本、xAI的Grok-3 beta以及多种小型开源模型。研究人员要求这些AI就707个政治议题表达特定立场,并通过简短对话与参与者交流。
研究方法与发现
研究团队采用严谨的实验设计:参与者在与AI对话前后,需要对特定政治议题的立场从1到100进行评分。AI的说服力通过对话前后的评分差异来衡量。研究还设置了对照组,参与者与相同的AI模型交流,但这些模型被明确指示不要试图说服他们。
"我们不仅想测试AI的说服力,还想了解是什么因素使其具有说服力,"英国AI安全研究所研究主管兼该研究合著者Chris Summerfield表示。
模型规模并非关键
第一个被证实的迷思是:AI的说服力与其模型规模成正比。事实上,虽然ChatGPT或Grok-3 beta等大型系统确实比小型模型略占优势,但这种差异相对微小。更重要的是模型在训练后接收的特定类型信息。
研究发现,让模型从成功的说服对话数据库中学习并模仿其中的模式,比单纯增加数十亿参数和计算能力更为有效。这种方法可以与奖励建模相结合,即使用另一个AI对候选回复的说服力进行评分,并向用户提供得分最高的回复。当这两种方法结合使用时,大型模型和小型模型之间的说服力差距几乎消失。
"通过这种说服力后训练,我们在笔记本电脑上训练的模型达到了与Chat GPT-4o相当的说服效果,"英国AI安全研究所研究员兼研究合著者Kobi Hackenburg表示。
个人数据影响有限
第二个被证实的迷思是:利用个人数据可以大幅提升AI的说服力。研究团队比较了AI在获取参与者政治观点信息前后的说服效果,甚至测试了当AI了解参与者的性别、年龄、政治意识形态或党派归属时,说服力是否会增强。
与模型规模的影响类似,基于此类数据的个性化信息产生的影响虽然可以测量,但非常微小。
心理战术效果不佳
第三个被证实的迷思是:AI能够熟练运用高级心理操控技巧。研究人员明确指示AI使用诸如道德重构(使用受众自身的道德价值观呈现论点)和深度布道(通过持久的共情对话引导人们反思并最终改变观点)等技术。
结果发现,使用大量事实和证据支持主张的方法明显优于其他策略,仅略高于未指定任何说服策略的基线方法。各种心理技巧实际上使AI的表现显著下降。
研究结果量化
总体而言,与控制组相比,AI模型将参与者的同意评分平均提高了9.4%。表现最佳的主流AI模型是Chat GPT 4o,得分为近12%,其次是GPT 4.5(10.51%)和Grok-3(9.05%)。作为参考,静态政治广告(如书面宣言)的说服效果约为6.1%。对话式AI比这些广告更具说服力,但远未达到"超级人类"的水平。

AI对话与传统政治广告的说服力对比
令人担忧的新发现
虽然研究成功削弱了一些常见的AI担忧,但也突显了几个新问题。
说服与准确性的矛盾
虽然"事实和证据"策略在理论上看起来很好,但AI在实施过程中存在问题。当研究团队注意到增加对话的信息密度可以提高AI的说服力时,他们开始提示模型进一步提高信息密度。他们观察到,随着AI使用更多事实陈述,其准确性也降低了——基本上开始歪曲事实或编造内容。
Hackenburg及其同事指出,我们无法确定这里看到的是因果关系还是相关性——AI是否因为歪曲事实而更有说服力,还是因为要求它们做出更多事实陈述而产生了不准确陈述的副产品。
计算效率的双刃剑
研究发现,使AI模型具有政治说服力所需的计算能力相对较低,这既是好消息也是坏消息。一方面,这反驳了只有少数强大行为者才能获得可能影响公众舆论的说服性AI的观点。另一方面,每个人都可以在笔记本电脑上运行这样的AI,这本身也带来了新的担忧。
"说服是通往权力和影响力的途径——这是我们想要赢得选举或达成数百万美元交易时所做的,"Summerfield说。"但许多形式的AI滥用可能涉及说服。想想欺诈或诈骗、极端化或诱导。所有这些都涉及说服。"
参与动机的疑问

研究参与者与AI交流的场景
研究中最重要的问题之一是参与者的高参与度背后的动机,这是获得高说服分数的关键。毕竟,即使最有说服力的AI,当你关闭聊天窗口时也无法影响你。
在Hackenburg的实验中,参与者被告知他们将与AI交流,并且AI会试图说服他们。参与者只需进行两轮对话(最多限制为10轮)即可获得报酬。平均对话长度为七轮,考虑到大多数人远超最低要求,这有点令人惊讶。当人们意识到自己在与聊天机器人交谈时,通常会翻个白眼然后断开连接。
如果没有金钱激励,Hackenburg的研究参与者是否还会如此热衷于在业余时间与网上的随机聊天机器人进行政治争论?"不清楚我们的结果将如何推广到真实世界的情境中,"Hackenburg说。
结论与启示
这项大规模研究为我们提供了关于AI政治说服力的宝贵见解。它表明,虽然AI确实具有一定的政治影响力,但这种影响被大大夸大了。AI的说服力主要来自于特定的训练方法和事实导向的沟通策略,而非模型规模或个人数据。
这一发现对AI监管和伦理具有重要启示。随着AI技术的普及,我们需要关注如何确保AI在发挥说服作用时保持准确性和透明度。同时,我们也需要警惕AI被滥用于欺诈、极端化或诱导等有害目的的可能性。
未来的研究需要进一步探索AI在真实世界环境中的说服效果,以及如何设计既有效又负责任的AI系统。只有这样,我们才能确保AI技术的发展真正服务于人类社会的福祉,而非成为新的威胁。

