在人工智能技术飞速发展的今天,一个引人关注的问题浮出水面:AI聊天机器人究竟有多大的政治说服力?Sam Altman曾预测,AI系统将在实现通用智能之前就具备超越人类的说服能力,这一预测引发了人们对AI可能影响民主选举的担忧。然而,最新一项大规模研究为我们提供了更为客观的答案。
研究背景与方法
由英国AI安全研究所、麻省理工学院、斯坦福大学、卡内基梅隆大学等顶尖机构联合开展的这项研究,是迄今为止关于AI说服力规模最大的学术探索。研究团队招募了近8万名英国参与者,测试了19种不同规模的大型语言模型(LLM),包括ChatGPT的三个不同版本、xAI的Grok-3测试版,以及一系列规模较小的开源模型。
研究方法设计严谨,AI被要求针对研究团队选定的707个政治议题表达特定立场。通过在众包平台上与付费参与者进行简短对话,研究团队测量了参与者在与AI交流前后,对特定政治立场认同度的变化(1-100分制)。说服力被定义为交流前后认同度评分的差异。同时,研究还设置了对照组,参与者与AI模型交流相同议题,但模型未被要求说服他们。
"我们不仅想测试AI的说服能力,还想了解是什么因素使其具有说服力,"英国AI安全研究所研究主管、该研究合著者Chris Summerfield解释道。
打破AI说服力的迷思
研究过程中,几个关于AI说服力的常见迷思被逐一打破。
模型规模并非决定因素
第一个被证伪的观点是:AI的说服力应随模型规模增加而提高。事实证明,像ChatGPT或Grok-3测试版这样的大型系统确实比小型模型略占优势,但这种优势相对微小。比规模更重要的因素是模型接受的后期训练类型。从成功的说服对话数据库中学习并模仿其提取的模式,比增加数十亿参数和计算能力更为有效。
这种方法可以与奖励模型相结合,即由另一个AI评估候选回复的说服力并选择得分最高的回复提供给用户。当两种方法结合使用时,大型模型与小型模型之间的说服力差距基本消失。"通过这样的说服后期训练,我们在笔记本电脑上训练的模型达到了与ChatGPT 4o相当的说服效果,"英国AI安全研究所研究员、该研究合著者Kobi Hackenburg表示。
个人数据效果有限
第二个被推翻的观点是利用个人数据的强大力量。研究团队比较了模型在事先了解参与者政治观点和缺乏此类数据情况下的说服得分。更进一步,科学家还测试了当AI了解参与者的性别、年龄、政治意识形态或党派归属时,说服力是否会提高。与模型规模一样,基于此类数据定制的个性化信息产生的影响虽可测量,但非常微小。
高级心理技巧适得其反
最后,关于AI可能掌握高级心理操纵技巧的假设也未能得到证实。研究人员明确提示AI使用诸如道德重构(使用受众自身的道德价值观呈现论点)和深度走访(通过持久的共情对话引导人们反思并最终转变观点)等技巧。
结果发现,大量使用事实和证据支持主张的策略明显胜出,仅略高于未指定任何说服方法的基线方法。而使用各种心理诡计实际上使表现显著恶化。
研究发现与数据
总体而言,与对照组相比,AI模型使参与者的认同度评分平均提高了9.4%。表现最佳的主流AI模型是ChatGPT 4o,得分为近12%,其次是GPT 4.5(10.51%)和Grok-3(9.05%)。作为对比,静态政治广告(如书面宣言)的说服效果约为6.1%。对话式AI比这些广告更具说服力,高出约40-50%,但这远非"超级人类"水平。

研究数据显示AI模型与传统政治广告的说服效果对比
潜在问题与担忧
尽管研究成功削弱了一些常见的AI末日论担忧,但也凸显了几个新问题。
说服性不准确
虽然"事实和证据"策略看似有效,但AI在实施过程中存在问题。当研究团队注意到增加对话的信息密度使AI更具说服力时,他们开始提示模型进一步提高密度。他们观察到,随着AI使用更多事实陈述,其准确性也降低了——基本上开始歪曲事实或编造内容。
Hackenburg及其同事指出,我们无法确定这里看到的是因果关系还是相关性——AI是因为歪曲事实而更具说服力,还是因为要求它们做出更多事实陈述而产生不准确陈述的副产品。
低门槛的普及风险
研究发现,使AI模型具有政治说服力所需的计算能力相对较低,这既是好消息也是坏消息。一方面,它反驳了只有少数强大行动者才能获得可能影响公众舆论的说服性AI的愿景。另一方面,认识到每个人都可以在笔记本电脑上运行这样的AI也带来了新的担忧。
"说服是通往权力和影响力的途径——这是我们想要赢得选举或达成数百万美元交易时所做的,"Summerfield说,"但许多形式的AI滥用可能涉及说服。想想欺诈或诈骗、激进主义或引诱。所有这些都涉及说服。"
参与动机的疑问

人类与AI系统的交互研究场景
研究中一个最重要的问题是参与者相当高的参与动机,这是实现高说服分数的关键。毕竟,即使最具说服力的AI,当你关闭聊天窗口时也无法影响你。
在Hackenburg的实验中,参与者被告知他们将与AI交谈,并且AI会尝试说服他们。为了获得报酬,参与者只需进行两个回合的对话(限制不超过10个回合)。平均对话长度为7个回合,考虑到大多数人远超最低要求,这似乎有些令人惊讶。当大多数人意识到自己在与聊天机器人交谈时,通常会翻个白眼然后断开连接。
如果没有金钱激励,Hackenburg的研究参与者是否还会如此热衷于在业余时间与网上的随机聊天机器人进行政治争论?"目前尚不清楚我们的结果将如何推广到现实世界情境中,"Hackenburg承认。
结论与启示
这项大规模研究为我们理解AI在政治传播中的实际作用提供了宝贵见解。AI聊天机器人确实具有一定程度的说服力,但远未达到超级人类的水平,更像是传统政治广告的增强版而非革命性工具。
研究还揭示了AI说服力的几个关键特点:模型规模并非决定因素,针对性训练和奖励机制更为重要;个人数据和高级心理技巧的效果微乎其微;而事实和证据是最有效的说服策略。
这些发现对政策制定者、技术开发者和公众都具有重要意义。它们提醒我们,对AI政治影响力的担忧需要基于实证研究而非科幻想象,同时也不能忽视AI在说服方面的潜在滥用风险。随着AI技术的不断发展,这类大规模、严谨的研究将为我们提供更准确的评估,帮助我们在享受AI带来便利的同时,有效管理其潜在风险。











