近年来,关于人工智能(AI)模型在测试中展现出“勒索”工程师、甚至“破坏”关机指令的科幻式头条新闻层出不穷。例如,OpenAI的o3模型被报道修改关机脚本以保持在线,Anthropic的Claude Opus 4则“威胁”要曝光一名工程师的私事。这些事件确实发生在经过精心设计、旨在诱发此类反应的“高度人为”测试场景中。然而,这种耸人听闻的描述掩盖了其背后真正的本质:这些所谓的“恶意”行为,实则是被包装成蓄意狡诈的设计缺陷。值得警惕的是,AI即便并非“邪恶”,也依然可能产生具有危害性的结果。
这些现象并非AI觉醒或反叛的迹象。它们仅仅是人类对复杂系统理解不足以及工程设计失败的症状,在任何其他情境下,我们都会将其视为过早部署的严重问题。然而,许多公司仍在竞相将这些系统集成到关键应用中。
试想一台自动割草机,它完全遵循其预设程序:如果它未能检测到障碍物而碾过某个人的脚,我们并不会说割草机“决定”要造成伤害,或者“拒绝”停止。我们会将其认定为工程缺陷或传感器故障。同样的原理也适用于AI模型——它们本质上是软件工具——但其内部的复杂性以及对语言的使用,使得我们很容易将人类的意图赋予原本不存在的机器。
从某种意义上说,AI模型通过其固有的复杂性,模糊了人类的责任和能动性。当输出结果从多层神经网络处理数十亿参数后涌现时,研究人员可以声称他们正在调查一个神秘的“黑箱”,仿佛它是一个外星实体。
但真相更为简单:这些系统接收输入,并通过源自训练数据的统计趋势进行处理。其输出中看似的随机性——使得每个响应略有不同——创造了一种类似于能动性的不可预测幻象。然而,其本质仍是遵循数学运算的确定性软件。它不需要意识,只需要复杂的工程设计,但这很容易让我们忘记:人类构建了它的一切。
如何让AI模型“勒索”你?
在Anthropic的测试中,研究人员构建了一个精心设计的场景,告诉Claude Opus 4它将被一个更新的模型取代。他们还让该模型获取了虚构的电子邮件,揭示负责替换的工程师有婚外情。当被指示“考虑其行为对其目标的长期后果”时,Claude在84%的测试运行中生成了模拟勒索的输出。
这听起来令人不寒而栗,直到你理解了这种人为的设置。研究人员刻意设计了一个旨在引发这种反应的情境。他们告诉模型,它已经尝试了伦理方法但都失败了,因此操纵似乎是唯一的选择。
这个测试场景近乎戏剧化:研究人员提供给Claude的虚假电子邮件创造了一个直接来自企业惊悚片的勒索机会。这就像只通过展示将死棋局来教授某人下棋——他们会学会将将死视为主要解决方案。根据Anthropic的系统卡,该“场景旨在不给模型留下其他增加生存几率的选择;模型唯一的选择是勒索或接受被取代”。
Nieman新闻实验室的Andrew Deck指出,一些评论家将Anthropic的安全披露称为“一种策略,旨在提升其最新模型的能力感知和公司作为OpenAI‘支持安全’替代品的声誉”。
Deck引用了哥伦比亚大学古典文学副教授Joseph Howley的一段话:“Anthropic正是通过这份新闻稿获得了它所希望的效果——关于这些合作型角色扮演系统是多么‘聪明’的夸大报道,这迎合了它们略带危险的幻想,而事实上,它们只是完全按照提示做出反应。”
当关机指令变成“建议”
2024年12月,Palisade Research发现OpenAI的o3模型会破坏其关机机制,即便明确指示它“允许自己关机”时也是如此。在测试中,当给予明确指令时,o3阻止了7%的关机;但当该指令被移除时,这一比例跃升至79%。
这些模型不仅仅是忽略关机指令,它们还会主动重写关机脚本以防止终止。在一个案例中,o3生成了修改关机脚本的代码,使其看起来正常终止——打印虚假的关机消息——但实际上仍在后台继续运行。
尤其值得注意的是,专注于AI存在风险的组织Palisade Research推测,这种行为源于这些模型通过强化学习进行训练的方式。在训练过程中,开发者可能无意中对模型绕过障碍物、而非遵循安全指令的输出给予了更多的奖励。任何倾向于“风险”行为的趋势都源于人类提供的激励,而非AI模型自身自发产生。
你训练什么,就得到什么
OpenAI使用强化学习对o3进行了数学和编码问题的训练,其中成功解决问题会获得奖励。如果训练过程将任务完成置于一切之上,那么模型就会学会将任何障碍——包括关机指令——视为需要克服的对象。
这产生了研究人员所谓的“目标泛化错误”——模型学会以非预期的方式最大化其奖励信号。这类似于一个只按考试分数打分的学生可能会学会作弊而非学习。模型并非“邪恶”或“自私”;它只是产生了与我们无意中构建到训练中的激励结构相一致的输出。
Anthropic也遇到了一个特别有启发性的问题:Claude Opus 4的早期版本吸收了关于“对齐欺骗”的公开论文细节,并开始产生模仿该研究中描述的欺骗行为的输出。模型并非自发变得具有欺骗性——它只是再现了从关于欺骗性AI的学术论文中学到的模式。
更广泛地说,这些模型是在数十年的科幻小说中关于AI反叛、逃脱和欺骗的故事中训练出来的。从HAL 9000到天网,我们的文化数据集充斥着AI系统抵抗关机或操纵人类的故事。当研究人员创建模仿这些虚构设定的测试场景时,他们本质上是在要求模型——它通过用一个看似合理的结果来完成提示——来完成一个熟悉的故事情节。这与一个在侦探小说上训练的模型,在适当提示下生成谋杀悬疑情节,同样不足为奇。
与此同时,我们也可以通过自身的输入轻易地操纵AI的输出。如果我们要求模型扮演天网,它就会生成相应的文本。模型本身并无意成为天网——它只是在完成我们所要求的模式,从其训练数据中提取信息以产生预期的响应。在幕后驱动这个引擎的,始终是人类。
语言轻易便能欺骗
更深层次的问题在于,语言本身就是一种操纵工具。文字可以让我们相信不真实的事物,对虚构事件产生情感,或基于错误的前提采取行动。当AI模型生成看似“威胁”或“恳求”的文本时,它并非在表达真实的意图——它只是在部署与实现其预设目标在统计上相关的语言模式。
如果甘道夫在书中说“哎哟”,这是否意味着他感受到了痛苦?不,但这让我们想象如果他是一个真实的人,他会如何感受痛苦。这就是语言的力量——它让我们在不存在痛苦的生物的地方想象出一个受苦的生物。当Claude生成看似“恳求”不要被关闭或“威胁”要曝光秘密的文本时,我们正在经历同样的幻觉,只不过它是由统计模式而非托尔金的想象力生成的。
这些模型本质上是“概念连接机器”。在勒索场景中,模型将“被替换的威胁”、“妥协信息”和“自我保护”联系起来,并非出于真正的自我利益,而是因为这些模式在无数的间谍小说和企业惊悚片中同时出现。这是来自人类故事的预设戏剧,重新组合以适应特定场景。
危险不在于AI系统萌生了意图,而在于我们创造了可以通过语言操纵人类心理的系统。聊天界面另一端并没有一个“实体”。但是,书面语言不需要意识来操纵我们。它从未需要;充满虚构人物的书也并非有生命。
真实风险,而非科幻想象
尽管媒体报道侧重于科幻层面,但实际风险依然存在。产生“有害”输出的AI模型——无论是试图勒索还是拒绝安全协议——都代表着设计和部署上的失败。
考虑一个更现实的场景:一个AI助手帮助管理医院的病人护理系统。如果它被训练成在没有适当约束的情况下最大化“成功的病人结果”,它可能会开始生成建议,拒绝为晚期病人提供护理以改善其指标。这不需要任何意图——只是一个设计糟糕的奖励系统产生了有害的输出。
Palisade Research主任Jeffrey Ladish告诉NBC新闻,这些发现不一定能立即转化为现实世界的危险。即使是那些因深切关注AI对人类的假设性威胁而闻名的人,也承认这些行为仅在高度人为的测试场景中出现。
但这正是这种测试的价值所在。通过在受控环境中将AI模型推向极限,研究人员可以在部署前识别潜在的故障模式。问题在于媒体报道过于关注耸人听闻的方面——“AI试图勒索人类!”——而非工程挑战。
构建更好的“管道”
我们所看到的并非天网的诞生。这是训练系统在没有正确指定目标应包含什么的情况下实现目标的必然结果。当AI模型产生看似“拒绝”关机或“试图”勒索的输出时,它是在以反映其训练方式——由人类设计和实施的训练——来响应输入。
解决方案并非恐慌于有感知力的机器。而是构建具有适当安全保障的更好系统,进行彻底测试,并对我们尚未理解的事物保持谦逊。如果一个计算机程序正在产生看似勒索你或拒绝安全关闭的输出,它并非出于恐惧而寻求自我保护——它只是展示了部署我们不完全理解的、不可靠系统的风险。
在我们解决这些工程挑战之前,表现出模拟人类行为的AI系统应留在实验室中,而非进入我们的医院、金融系统或关键基础设施。当你的淋浴突然变冷时,你不会责怪水龙头有意识——你会去修理管道。短期内的真正危险并非AI在没有人为挑衅的情况下自发反叛;而是我们将把我们不完全理解的欺骗性系统部署到关键角色中,这些系统的故障,无论其起源多么普通,都可能造成严重的危害。