AI政治说服力真相:大规模研究揭示AI影响公众政治观点的局限性

0

人工智能(AI)系统在政治领域的说服能力一直是公众关注的焦点。两年前,Sam Altman曾预测AI系统将在实现通用智能之前具备超级人类的说服能力,这一预测引发了人们对AI可能影响民主选举的担忧。为了验证对话式大型语言模型(LLM)是否能真正改变公众的政治观点,英国AI安全研究所、麻省理工学院、斯坦福大学、卡内基梅隆大学等众多机构的研究人员进行了一项迄今为止规模最大的AI说服力研究,涉及近8万名英国参与者。结果表明,政治AI聊天机器人远未达到超级人类的说服能力,但这项研究也揭示了人类与AI互动中的一些更微妙的问题。

AI反乌托邦想象的破灭

关于AI对政治影响的公众辩论大多源于反乌托邦科幻小说的概念。大型语言模型几乎可以获取关于任何议题或候选人的所有事实和故事,它们已经处理了来自心理学、谈判学和人类操控等书籍的信息,可以依赖全球数据中心中极其强大的计算能力,并且往往能够利用数百次在线交互所积累的大量个人信息。

与强大的AI系统交谈,本质上是在与一个了解一切关于一切,以及几乎了解你一切的智能体互动。从这种角度看,LLM确实显得有些可怕。这项新的巨型AI说服力研究的目标就是将这些可怕的场景分解为组成部分,看看它们是否经得起检验。

研究团队考察了19个LLM,包括最强大的模型,如ChatGPT的三个不同版本和xAI的Grok-3测试版,以及一系列较小的开源模型。研究人员要求AI针对团队选定的707个政治议题中的特定立场进行支持或反对的倡导。倡导方式是通过与通过众包平台招募的付费参与者进行简短对话。每位参与者在与AI交谈前后,都需要对分配给他们的政治议题的特定立场表示同意程度进行1-100分的评分。

科学家将说服力定义为交谈前后的同意度评分差异。对照组在与相同的AI模型讨论相同议题时——但这些模型没有被要求说服他们。

"我们不仅想测试AI的说服力有多强,还想了解是什么让它具有说服力,"英国AI安全研究所研究总监兼该研究合著者Chris Summerfield表示。随着研究人员测试各种说服策略,AI具有"超级人类说服力"的想法开始崩塌。

说服力的杠杆

第一个被打破的观念是,说服力应随着模型规模增加而提高。事实证明,像ChatGPT或Grok-3测试版这样的大型AI系统确实比小型模型具有优势,但这种优势相对微小。证明比规模更重要的因素是模型接收的后期训练类型。让模型从有限的成功对话数据库中学习并模仿从中提取的模式,这种方法远比添加数十亿参数和纯粹的计算能力更有效。

这种方法可以与奖励建模相结合,即由另一个AI对候选回复的说服力进行评分,并选择得分最高的回复提供给用户。当两者结合使用时,大型模型和小型模型之间的差距基本消失。"通过这样的说服力后期训练,我们用一台笔记本电脑上训练的模型匹配了Chat GPT-4o的说服性能,"英国AI安全研究所研究员兼该研究合著者Kobi Hackenburg表示。

第二个破灭的反乌托邦想法是使用个人数据的力量。为此,团队比较了模型事先获得参与者政治观点信息时的说服得分,以及缺乏这些数据时的说服得分。更进一步,科学家还测试了当AI知道参与者的性别、年龄、政治意识形态或党派归属时,说服力是否会增加。与模型规模一样,基于此类数据创建的个性化消息的影响虽然可以测量,但非常小。

最后,一个没有成立的假设是AI可能掌握使用高级心理操控技巧的能力。科学家明确提示AI使用诸如道德重构等技巧,即使用受众自己的道德价值观来呈现你的论点。他们还尝试了深度游说,即与人们进行长时间的共情对话,以推动他们反思并最终改变观点。

将由此产生的说服力与相同模型被提示使用事实和证据支持其主张,或者只是尽可能具有说服力而不指定任何说服方法时的效果进行比较。结果表明,大量使用事实和证据是明确的赢家,仅略高于未指定说服策略的基线方法。使用各种心理诡计实际上使表现显著变差。

总体而言,与对照组相比,AI模型平均将参与者的同意度评分改变了9.4%。表现最好的主流AI模型是Chat GPT 4o,得分接近12%,其次是GPT 4.5(10.51%)和Grok-3(9.05%)。作为参考,静态政治广告如书面宣言的说服效果约为6.1%。对话式AI比这些广告的说服力大约高40-50%,但这绝非"超级人类"。

虽然这项研究成功削弱了一些常见的反乌托邦AI担忧,但也突显出一些新问题。

令人信服的不准确性

AI研究数据

虽然最初看来,获胜的"事实和证据"策略看似不错,但AI在实施它时存在一些问题。当团队注意到增加对话的信息密度使AI更具说服力时,他们开始提示模型进一步增加信息密度。他们注意到,随着AI使用更多事实陈述,它们的准确性也降低了——它们基本上开始歪曲事实或编造更多内容。

Hackenburg及其同事指出,我们无法判断这里看到的是因果关系还是相关性——AI是否因为歪曲事实而变得更有说服力,或者吐出不准确的陈述是要求它们做出更多事实陈述的副产品。

研究表明,使AI模型具有政治说服力所需的计算能力相对较低,这也是一把双刃剑。这反驳了只有少数强大行动者才能获得可能影响公众舆论的说服性AI的愿景。与此同时,意识到每个人都可以在笔记本电脑上运行这样的AI,也带来了自己的担忧。"说服是通往权力和影响力的途径——这是我们想要赢得选举或达成数百万美元交易时所做的,"Summerfield说。"但许多形式的AI滥用可能涉及说服。想想欺诈或诈骗、极端化或引诱。所有这些都涉及说服。"

但研究中最重要的疑问点可能是相当高的参与者参与度背后的动机,这是获得高说服分数所必需的。毕竟,即使最有说服力的AI,当你只是关闭聊天窗口时也无法打动你。

Hackenburg实验中的参与者被告知他们将与AI交谈,并且AI会试图说服他们。为了获得报酬,参与者只需进行两个回合的对话(他们被限制不超过10个回合)。平均对话长度为七个回合,考虑到大多数人远远超出了最低要求,这似乎有些令人惊讶。当大多数人意识到自己在与聊天机器人交谈时,他们通常会翻个白眼然后断开连接。

如果没有任何报酬,Hackenburg的研究参与者是否还会如此愿意在业余时间与互联网上的随机聊天机器人进行政治辩论?"我们的结果如何推广到真实世界情境尚不清楚,"Hackenburg说。

研究启示与未来方向

这项研究的结果对AI治理和公共政策具有重要启示。首先,它表明AI的说服能力被高估了,这应该缓解政策制定者对AI可能立即颠覆民主进程的担忧。其次,研究揭示了AI说服力的实际机制,表明专注于事实和证据的策略比复杂的心理技巧更有效,这可能为开发更负责任的AI系统提供指导。

然而,研究也指出了几个值得关注的领域。AI在提供更多事实的同时准确性下降的问题,强调了事实核查和透明度机制的重要性。计算需求的降低意味着AI说服技术可能更广泛地可用,这需要制定防止滥用的保障措施。

未来的研究应该探索如何将实验室发现转化为真实世界环境,以及如何设计既能保持说服力又能确保准确性的AI系统。此外,随着AI技术的不断发展,定期评估其说服能力的变化也至关重要。

在民主社会中,理解并负责任地利用AI的说服能力,将有助于我们充分发挥其潜力,同时减轻潜在风险。这项研究为我们提供了一个坚实的起点,但在这个快速发展的领域,持续的探索和谨慎的平衡仍然至关重要。