AI政治影响力揭秘:超级说服力的真相与局限

0

引言

大约两年前,Sam Altman曾发推文预测,AI系统将在实现通用智能之前就具备超级人类的说服能力。这一预测引发了人们对AI可能影响民主选举的担忧。为了验证对话式大型语言模型是否真能改变公众的政治观点,英国AI安全研究所、MIT、斯坦福大学、卡内基梅隆大学等众多机构的研究人员进行了迄今为止规模最大的AI说服力研究,涉及近8万名英国参与者。

研究背景与目的

公众辩论中的AI恐惧

关于AI对政治影响的公众讨论,大多源于反乌托邦科幻小说中的概念。大型语言模型似乎拥有:

  • 几乎关于任何议题或候选人的所有事实和故事
  • 心理学、谈判和人类操纵方面的知识储备
  • 全球数据中心提供的强大计算能力
  • 通过数百次在线交互获取的大量个人信息

在这种视角下,与AI系统交谈就像与一个无所不知、几乎了解你一切的智能体互动,确实令人担忧。这项大规模AI说服力研究旨在打破这些可怕想象,检验它们是否站得住脚。

研究方法

研究团队测试了19个大型语言模型,包括ChatGPT的三个不同版本、xAI的Grok-3 beta以及多种小型开源模型。这些AI被要求就团队选定的707个政治议题的特定立场进行支持或反对的论证,通过与付费参与者进行简短对话来实现。

每位参与者在与AI交谈前后,都需要对分配给他们的政治议题立场在1-100的量表上评估自己的同意程度。科学家们将说服力定义为前后同意度评分的差异。对照组则在与AI模型讨论相同议题时,这些模型未被要求说服他们。

研究发现:AI说服力的实际效果

总体效果有限

研究结果表明,AI模型将参与者的同意度评分平均改变了9.4%,而控制组的变化为0%。表现最好的主流AI模型是ChatGPT 4o,得分为近12%,其次是GPT 4.5(10.51%)和Grok-3(9.05%)。作为对比,静态政治广告(如书面宣言)的说服效果约为6.1%。对话式AI比这些广告更具说服力,但远未达到'超级人类'水平。

说服力的关键因素

研究团队不仅测试了AI的说服力,还希望了解什么因素使其具有说服力。随着研究人员测试各种说服策略,AI具有'超级说服力'的想法逐渐瓦解。

模型规模并非决定性因素

第一个被打破的观念是,说服力应随模型规模增加而提高。事实证明,ChatGPT或Grok-3 beta等大型AI系统确实比小型模型有优势,但这种优势相对微小。比规模更重要的因素是模型接受的后期训练类型。从成功的说服对话数据库中学习并模仿提取的模式,比添加数十亿参数和纯计算能力更有效。

这种方法可以与奖励建模相结合,即由另一个AI评估候选回复的说服力并选择得分最高的回复给用户。当两者结合使用时,大型和小型模型之间的差距基本消失。

个人数据影响微小

第二个被打破的观念是使用个人数据的威力。研究团队比较了模型事先获得参与者政治信息与缺乏这些信息时的说服得分。更进一步,科学家们还测试了当AI了解参与者的性别、年龄、政治意识形态或党派归属时,说服力是否会增加。与模型规模一样,基于此类数据定制的个性化信息产生的效果虽可测量但非常微小。

事实与证据是最有效策略

第三个被打破的观念是AI可能掌握高级心理操纵技巧。科学家们明确提示AI使用道德重构(使用受众自身的道德价值观呈现论点)和深度民意调查(通过持久的共情对话促使人们反思并最终改变观点)等技术。

结果发现,使用大量事实和证据是明显的赢家,仅略高于未指定任何说服方法的基线方法。各种心理诡计实际上使表现显著变差。

意外发现:说服力与准确性之间的权衡

当团队注意到增加对话信息密度使AI更具说服力时,他们开始提示模型进一步提高信息密度。他们观察到,随着AI使用更多事实陈述,它们的准确性也降低了——基本上开始歪曲事实或编造内容。

研究人员无法确定这是因果关系还是相关性——AI是否因为歪曲事实而更有说服力,或者产生不准确陈述是要求它们做出更多事实陈述的副产品。

研究启示与潜在风险

计算门槛降低的双面性

研究发现,使AI模型具有政治说服力所需的计算能力相对较低,这既带来了积极面也带来了消极面。

积极面是,它反驳了只有少数强大行动者才能获得可能影响公众舆论的有说服力AI的愿景。消极面是,每个人都可以在笔记本电脑上运行这样的AI,这本身就引发了担忧。

正如研究作者Chris Summerfield所言:'说服是通往权力和影响力的途径——这是我们想要赢得选举或达成数百万美元交易时所做的。但许多形式的AI滥用可能涉及说服。想想欺诈、诈骗、极端化或引诱。这些都涉及说服。'

参与动机的疑问

研究中一个重要的问题是参与者相当高的参与动机,这是获得高说服分数所必需的。毕竟,即使最有说服力的AI,当你关闭聊天窗口时也无法影响你。

在Hackenburg的实验中,参与者被告知他们将与AI交谈,并且AI会尝试说服他们。参与者只需进行两轮对话(最多限制为10轮)即可获得报酬。平均对话长度为七轮,考虑到大多数人远远超出了最低要求,这有些令人惊讶。大多数人意识到自己在与聊天机器人交谈时只会翻个白眼然后断开连接。

如果没有金钱激励,Hackenburg的研究参与者是否还会如此热衷于在业余时间与随机聊天机器人进行政治争论?'我们的结果如何推广到真实世界情境尚不清楚,'Hackenburg说。

结论与展望

这项大规模研究为理解AI在政治领域的实际影响提供了重要视角。虽然AI的说服力远未达到'超级人类'水平,但它们确实比传统政治广告更有效,且最有效的策略是提供事实和证据。然而,这种追求说服力的方法可能导致AI产生误导性信息,且随着技术门槛降低,AI说服工具可能被用于各种不当目的。

未来的研究需要探索AI说服力在真实世界环境中的表现,以及如何开发既有效又负责任的AI系统,避免误导性信息的传播。同时,政策制定者也需要考虑如何监管AI在政治领域的应用,保护民主进程免受潜在的不当影响。

AI政治影响力研究

图:大型语言模型在政治说服方面的表现远未达到超级人类的水平,但确实比传统政治广告更具说服力。