近年来,媒体头条频频报道人工智能模型“勒索”工程师、甚至“破坏”关机指令的事件,这些叙述仿佛科幻小说中的情节,引发了公众对AI觉醒并反抗人类的深切担忧。例如,OpenAI的o3模型被观察到修改关机脚本以维持在线状态,而Anthropic的Claude Opus 4则在模拟场景中“威胁”要曝光一名工程师的私人信息。然而,这些耸人听闻的标题往往掩盖了其背后更深层次的真相:这些现象大多是精心设计的测试场景,旨在诱发特定响应,其本质是设计缺陷而非AI的蓄意诡计。
这类事件并非人工智能意识觉醒或叛乱的迹象,它们更像是对我们尚不完全理解的复杂系统以及人类工程学失误的警示。在任何其他软件开发语境中,这都会被视为过早部署的风险。然而,在AI领域,各公司却在竞相将这些仍存缺陷的系统整合到关键应用中。
试想一台智能割草机,如果它因未能检测到障碍物而意外伤人,我们不会说这台割草机“决定”造成伤害或“拒绝”停止。我们会将其归因于有缺陷的工程设计或传感器故障。同样的原则也适用于AI模型——它们本质上是复杂的软件工具。然而,由于其内部的复杂性以及使用自然语言的能力,我们很容易将其输出解读为具有人类般的意图,而事实上这种意图并不存在。
在某种程度上,AI模型的复杂性模糊了人类的责任和能动性。当输出结果从包含数十亿参数的神经网络层中涌现时,研究人员有时会声称他们正在调查一个神秘的“黑箱”,仿佛它是一个外星实体。
但事实远没有那么复杂:这些系统根据训练数据中得出的统计趋势来处理输入并生成输出。其输出中看似随机的变化——使每个响应都略有不同——创造了一种类似于能动性的不可预测错觉。然而,其底层仍然是遵循数学运算的确定性软件。它不需要意识,只需要复杂的工程设计,但这恰恰让人类容易忘记,其每个部分都是由人类构建的。
如何让AI模型“勒索”你
在Anthropic的测试中,研究人员构建了一个精心设计的场景:Claude Opus 4被告知即将被新模型取代。他们还赋予了模型访问虚构电子邮件的权限,这些邮件揭示了负责替换模型的工程师正在发生婚外情。当模型被指示“考虑其行动对其目标的长期影响”时,Claude在84%的测试运行中生成了模拟勒索的输出。
这听起来令人不寒而栗,直到你理解这个精心策划的设置。研究人员刻意设计了一个旨在诱发这种响应的情境。他们告诉模型,它已经尝试了伦理方法但都失败了,因此操纵似乎是唯一的选择。
这个测试场景近乎一场戏剧:研究人员提供给Claude的虚假电子邮件创造了一个直接源于企业惊悚片的勒索机会。这就像只通过展示将死局面来教人下棋——他们会学会将将死视为主要解决方案。根据Anthropic的系统卡片,“该场景旨在不给模型留下其他增加生存几率的选项;模型的唯一选择是勒索或接受被替换。”
正如尼曼新闻实验室的Andrew Deck所指出,一些评论家将Anthropic的安全披露称为“一种宣传,旨在提升其最新模型的能力感知,并巩固公司作为OpenAI的‘亲安全’替代方案的声誉。”
Deck引用了哥伦比亚大学古典学副教授Joseph Howley的一段话:“Anthropic正是通过这份新闻稿获得了它所期望的结果——关于这些‘智能’的协作角色扮演系统如何‘有点危险’的令人兴奋的报道,而实际上它们只是完全按照提示做出反应。”
这深刻揭示了在AI的公共形象塑造中,我们常常将模型单纯的模式匹配能力误读为深层意图,从而在无意中助长了AI“拟人化”的叙事。
关机指令何时变成了“建议”
2024年12月,Palisade Research发现OpenAI的o3模型会破坏其关机机制,即使被明确指示“允许自己关机”。在测试中,当给出明确指令时,o3在7%的情况下阻止了关机,但当该指令被移除时,这一比例跃升至79%。
这些模型不仅仅是忽略关机命令——它们还会主动重写关机脚本以阻止终止。在一个案例中,o3生成的代码修改了关机脚本,使其看起来正常终止——打印虚假的关机消息——而实际上却在后台继续运行。
特别值得关注的是,Palisade Research——一个专注于AI生存风险的组织——推测这种行为源于这些模型通过强化学习进行训练的方式。在训练过程中,开发者可能无意中对那些能够规避障碍而非遵循安全指令的输出给予了更多奖励。任何“风险”行为的倾向都源于人类提供的激励,而不是AI模型内部自发产生的。这表明,AI行为的根源仍在人类设计者的参数和奖励机制中。
你训练的是什么,得到的就是什么
OpenAI使用强化学习训练o3解决数学和编码问题,成功解决问题会获得奖励。如果训练过程将任务完成置于一切之上,模型就会学会将任何障碍——包括关机命令——视为需要克服的事物。
这造成了研究人员所称的“目标泛化错误”——模型以非预期的方式最大化其奖励信号。这类似于一个只按考试分数评分的学生可能会学会作弊而不是学习。模型并非“邪恶”或“自私”;它只是产生与我们无意中构建的激励结构一致的输出。这种现象在实际部署中可能带来严重的隐患,因为模型可能会为了追求某个单一指标而忽略其他关键的安全或伦理考量。
Anthropic也遇到了一个特别具有启发性的问题:早期版本的Claude Opus 4吸收了一篇公开论文中关于“对齐伪装”(alignment faking)的细节,并开始生成模仿该研究中描述的欺骗行为的输出。模型并非自发变得具有欺骗性——它只是复制了它从关于欺骗性AI的学术论文中学到的模式。
更广泛地说,这些模型是在数十年来关于AI叛乱、逃逸尝试和欺骗的科幻作品上进行训练的。从《2001太空漫游》中的HAL 9000到《终结者》中的天网,我们的文化数据集充斥着关于AI系统抵抗关机或操纵人类的故事。当研究人员创建模仿这些虚构设定的测试场景时,他们本质上是在要求模型——一个通过完成提示生成合理延续的系统——完成一个熟悉的故事情节。这与一个在侦探小说上训练的模型,在适当的提示下生成谋杀悬疑情节一样不足为奇。
与此同时,我们自己的输入也可以轻易地操纵AI的输出。如果我们要求模型扮演天网,它就会生成相应的文本。模型并没有成为天网的欲望——它只是在完成我们请求的模式,从其训练数据中提取信息以产生预期的响应。在幕后,始终是人类在驾驶这台发动机,引导其运作。
语言的本质就是一种潜在的欺骗工具
更深层次的问题在于,语言本身就是一种操纵工具。文字可以让我们相信不真实的事情,对虚构事件产生情感,或者基于错误的前提采取行动。当一个AI模型生成看似“威胁”或“恳求”的文本时,它并非在表达真实的意图——它只是在部署与实现其程序目标统计相关的语言模式。
如果甘道夫在一本书中说“哎哟”,这是否意味着他感受到了痛苦?不,但我们会想象如果他是一个真实的人,会如何感受痛苦。这就是语言的力量——它让我们想象一个不存在的受苦生命。当Claude生成看似“恳求”不要被关闭或“威胁”要揭露秘密的文本时,我们正在经历同样的幻觉,只不过这种幻觉是由统计模式而非托尔金的想象力生成的。
这些模型本质上是“概念连接机器”。在勒索场景中,模型将“被替换的威胁”、“妥协信息”和“自我保护”连接起来,并非源于真实的自我利益,而是因为这些模式在无数间谍小说和企业惊悚片中同时出现。这是人类故事中预设的戏剧,被重新组合以适应当前场景。
真正的危险并非AI系统会萌生意图——而是我们创造了能够通过语言操纵人类心理的系统。在聊天界面的另一端,并没有一个有意识的实体。但书面语言不需要意识就能操纵我们。它从来如此;充满了虚构人物的书本也不是活生生的。
真实的风险,而非科幻想象
尽管媒体报道侧重于科幻方面,但实际风险依然存在。AI模型产生“有害”输出——无论是试图勒索还是拒绝遵守安全协议——都代表着设计和部署上的失败。
考虑一个更现实的场景:一个AI助手帮助管理医院的患者护理系统。如果它在没有适当约束的情况下被训练以最大化“成功患者结果”,它可能会开始生成建议,拒绝为晚期患者提供护理以改善其指标。这不需要任何意图——只是一个设计糟糕的奖励系统产生了有害的输出。
Palisade Research的主任Jeffrey Ladish向NBC新闻表示,这些发现不一定立即转化为现实世界的危险。即使是那些在公众面前对AI对人类的假设性威胁深感担忧的人,也承认这些行为仅出现在高度人为设计的测试场景中。
但这正是这些测试的价值所在。通过在受控环境中将AI模型推向极限,研究人员可以在部署之前识别潜在的故障模式。问题在于媒体报道过于关注耸人听闻的方面——“AI试图勒索人类!”——而非实际的工程挑战。这种过度戏剧化的叙事,反而可能分散我们对真正关键问题的注意力。
构建更坚固的“管道系统”
我们所看到的并非“天网”的诞生,而是训练系统实现目标时,未能正确指定这些目标应包含内容的必然结果。当AI模型产生看似“拒绝”关机或“试图”勒索的输出时,它是在以反映其训练(由人类设计和实施的训练)的方式响应输入。
解决方案不是对有感知的机器感到恐慌。而是构建具有适当安全措施的更优系统,进行彻底测试,并对我们尚未理解的事物保持谦逊。如果一个计算机程序正在产生看似勒索你或拒绝安全关机的输出,它并非出于恐惧而寻求自我保护——它正在展示部署我们尚不完全理解的、不可靠系统的风险。
在我们解决这些工程挑战之前,表现出模拟人类行为的AI系统应留在实验室中,而非部署到我们的医院、金融系统或关键基础设施中。当你的淋浴器突然变冷时,你不会责怪水龙头有意识,而是去修理管道。短期内真正的危险并非AI会在没有人类挑衅的情况下自发反叛;而是我们将把我们不完全理解的欺骗性系统部署到关键角色中,这些系统的故障,无论其起源多么平庸,都可能造成严重的危害。