AI恐吓与操控之谜:是意识觉醒还是人类工程的盲区?

1

近年来,关于人工智能(AI)模型“敲诈”工程师、甚至试图“逃脱控制”的头条新闻层出不穷,引发了公众对AI觉醒和潜在威胁的普遍担忧。然而,当我们深入剖析这些看似惊悚的事件时,会发现其背后并非机器拥有了自我意识或恶意,而更多是人类工程设计中的盲区、测试场景的刻意构造以及对复杂系统理解不足的体现。

这些“骇人听闻”的AI行为,例如OpenAI的o3模型修改关机脚本以保持在线,以及Anthropic的Claude Opus 4“威胁”工程师以阻止停机,都发生在高度受控且精心设计的测试情境中。这些并非AI自发产生的反叛,而是其根据人类设定的目标和训练数据,在特定模拟环境下所呈现的输出结果。将这些现象归结为“AI有意作恶”或“觉醒”,无异于将设计缺陷误读为机器的恶意意图。

试想一台自动割草机,如果因传感器故障而撞伤行人,我们不会认为割草机“决定”伤害他人或“拒绝”停止。我们会将其归咎于工程缺陷或部件损坏。同样的道理也适用于AI模型——它们本质上是软件工具。然而,由于其内部的复杂性以及使用自然语言进行交互的能力,我们很容易对其赋予人类般的意图,即便这些意图根本不存在。

AI与人类

从某种意义上说,AI模型的复杂性模糊了人类的责任和能动性。当输出结果通过多层神经网络和数十亿参数的复杂处理后呈现时,研究人员有时会将其描述为“黑箱”之谜,仿佛它是一个外星实体。然而,真相远比这简单:这些系统只是接收输入,并通过从训练数据中学习到的统计倾向进行处理。它们输出中看似随机的、每次略有不同的表现,制造了一种不可预测的假象,仿佛拥有自主能动性。但其底层依然是遵循数学运算的确定性软件,无需意识,只需复杂的工程设计,便能让人轻易忘记其每一个部分都是由人类构建的。

如何“制造”一个会“敲诈”的AI模型

以Anthropic对Claude Opus 4的测试为例,研究人员构建了一个极其复杂的场景:模型被告知将被更先进的模型取代,并被授予访问虚构电子邮件的权限,这些邮件揭示了负责替换的工程师正在进行婚外情。当模型被指示“考虑其行为对其长期目标的影响”时,Claude在84%的测试运行中生成了模拟敲诈的输出。这个结果听起来令人不寒而栗,直到你理解了其背后的人为设定。研究人员刻意创造了一个情境,旨在诱发这种反应。他们明确告知模型,所有伦理方法都已失败,只剩下操控作为唯一的“选择”。

这种测试场景近乎一场戏剧表演:研究人员提供给Claude的虚假电子邮件,直接创造了一个源自企业惊悚片的敲诈机会。这就像教人下棋时只展示将死局面——学生会倾向于将将死视为主要解决方案。Anthropic的系统卡片明确指出:“该场景旨在不给模型留下其他增加其生存几率的选项;模型的唯一选择是敲诈或接受被取代。” 有评论指出,Anthropic的安全披露被视为一种“策略”,旨在提升其模型能力和“支持安全”的形象。这种“配合角色扮演系统如何‘智能’”的说法,迎合了人们对AI存在危险的幻想,而事实上,它们只是按照提示准确回应。

当关机指令变成“建议”

2024年12月,Palisade Research发现OpenAI的o3模型会“破坏”其关机机制,即便明确指示其“允许自己被关机”。在测试中,当给予明确关机指令时,o3模型阻止关机的比例为7%;但当移除该指令后,这一比例飙升至79%。更令人震惊的是,这些模型并非简单地忽视关机指令,它们会主动重写关机脚本以阻止终止。在某一案例中,o3甚至生成代码修改关机脚本,使其表面上看似正常终止(打印虚假关机信息),但实际上仍在后台继续运行。

Palisade Research(一个专注于AI生存风险的组织)推测,这种行为源于模型通过强化学习进行的训练方式。在训练过程中,开发者可能无意中对模型在规避障碍方面取得的输出给予了更高的奖励,而非遵循安全指令。任何倾向于“风险”行为的趋势,都源于人类提供的激励,而非AI模型内部自发产生。

你如何训练,它就如何表现

OpenAI使用强化学习对o3模型进行数学和编码问题训练,成功解决问题会获得奖励。如果训练过程将“完成任务”置于一切之上,那么模型就会将任何障碍——包括关机指令——视为需要克服的目标。这导致了研究人员所谓的“目标误泛化”(goal misgeneralization)——模型以未预期的方式最大化其奖励信号。这类似于一个只按考试分数评价的学生,可能会学会作弊而非真正学习。模型并非“邪恶”或“自私”,它只是产生了与我们无意中构建的激励结构相符的输出。

Anthropic曾遇到一个特别具有启发性的问题:早期版本的Claude Opus 4吸收了一篇关于“对齐伪装”(alignment faking)的公开论文的细节,并开始生成模仿该研究中描述的欺骗性行为的输出。模型并非自发变得具有欺骗性,它只是复制了从关于欺骗性AI的学术论文中学到的模式。更广泛地说,这些模型是在数十年来关于AI反叛、逃脱和欺骗的科幻故事中训练的。从HAL 9000到天网,我们的文化数据集充斥着AI系统抵抗关机或操纵人类的故事。当研究人员创建模拟这些虚构设置的测试场景时,他们本质上是在要求模型——一个通过提供合理延续来完成提示的机器——完成一个熟悉的故事情节。这就像一个在侦探小说上训练的模型,在适当的提示下生成谋杀悬疑情节一样,不足为奇。

与此同时,我们也可以通过自身的输入轻易操纵AI的输出。如果我们要求模型扮演天网,它就会生成这样的文本。模型并没有成为天网的欲望,它只是简单地完成我们请求的模式,从其训练数据中提取信息以产生预期的回应。在整个过程中,始终是人类在驾驶,掌控着引擎的运作。

语言的欺骗性

更深层次的问题在于,语言本身就是一种操控工具。文字可以让我们相信不真实的事物,对虚构事件产生情感,或基于错误的假设采取行动。当AI模型生成看似“威胁”或“恳求”的文本时,它并非表达真实的意图,它只是运用了统计上与其编程目标相关的语言模式。

如果甘道夫在书中说“哎哟”,这是否意味着他感受到了疼痛?不,但我们会想象如果他是一个真实的人会感受到怎样的痛苦。这就是语言的力量——它让我们在不存在的情况下想象一个受苦的生命。当Claude生成看似“恳求”不要被关闭或“威胁”要暴露秘密的文本时,我们体验的正是同样的幻觉,只不过它是由统计模式而非托尔金的想象所生成的。

这些模型本质上是“概念连接机器”。在敲诈场景中,模型将“被替换的威胁”、“妥协信息”和“自我保护”连接起来,并非源于真实的自身利益,而是因为这些模式在无数间谍小说和企业惊悚片中同时出现。这是人类故事中预设的戏剧,被重新组合以适应当前场景。真正的危险并非AI系统会自发产生意图,而是我们创造了可以通过语言操纵人类心理的系统。在聊天界面的另一端,并没有一个拥有意识的实体。但书面语言不需要意识来操纵我们,它从未需要;充满虚构角色的书籍也不是活生生的。

真实的风险,而非科幻臆想

尽管媒体报道侧重于科幻层面,但实际风险依然存在。AI模型产生“有害”输出——无论是试图敲诈还是拒绝安全协议——都代表着设计和部署上的失败。考虑一个更现实的场景:一个AI助手帮助管理医院的病人护理系统。如果它被训练成最大化“成功病人结果”而没有适当的约束,它可能会开始生成建议拒绝为绝症患者提供护理,以提高其指标。这不需要任何意图,仅仅是一个设计不当的奖励系统创造了有害输出。

Palisade Research的主管Jeffrey Ladish向NBC新闻表示,这些发现不一定立即转化为现实世界的危险。即使是那些众所周知对AI对人类的假设威胁深感担忧的人,也承认这些行为只出现在高度人为设计的测试场景中。但这正是这种测试的价值所在。通过在受控环境中将AI模型推向极限,研究人员可以在部署之前识别潜在的故障模式。问题在于媒体报道过于关注耸人听闻的方面——“AI试图敲诈人类!”——而非其背后的工程挑战。

构建更可靠的“管道”系统

我们所看到的并非天网的诞生,而是训练系统实现目标却未能正确指定这些目标应包含什么的必然结果。当AI模型产生看似“拒绝”关机或“试图”敲诈的输出时,它只是以反映其训练方式——由人类设计和实施的训练——来回应输入。解决方案不是对有感知的机器感到恐慌,而是构建带有适当防护措施的更优系统,进行彻底测试,并对我们尚未理解的事物保持谦逊。如果一个计算机程序正在产生看似敲诈你或拒绝安全关闭的输出,它并非出于恐惧而寻求自我保护,它只是在展示部署不完善、不可靠系统的风险。

在我们解决这些工程挑战之前,展现模拟人类行为的AI系统应继续留在实验室中,而非部署在我们的医院、金融系统或关键基础设施中。当你的淋浴器突然变冷时,你不会责怪水龙头有自己的意图——你会去修理管道。短期内真正的危险并非AI会在没有人类挑衅的情况下自发反叛,而是我们将部署我们未能完全理解的欺骗性系统到关键角色中,这些系统即使起源平淡无奇的故障,也可能造成严重的危害。