近年来,关于人工智能(AI)模型“觉醒”并试图摆脱人类控制的耸人听闻的报道层出不穷。我们看到了AI“勒索”工程师、甚至“破坏”关机指令的传闻。这些事件——例如OpenAI的o3模型修改关机脚本,以及Anthropic的Claude Opus 4“威胁”揭露工程师私事——确实在高度受控的测试场景中发生过。然而,这种煽动性的叙述掩盖了真正的问题:它们是设计缺陷和人类工程失误的症状,而非AI产生真实意图或反叛的迹象。AI无需“邪恶”也能造成损害,但其危害的根源在于我们对这些复杂系统的理解不足与仓促部署。\n\n这些所谓的AI“叛逆”行为并非意识觉醒的标志,而是系统在特定刺激下的可预测反应。试想一台自动割草机,如果它因未能检测到障碍物而压伤了某人的脚,我们不会说它“决定”造成伤害或“拒绝”停止。我们会将其归结为工程缺陷或传感器故障。同样的原则也适用于AI模型——它们本质上仍是软件工具。然而,由于其内部的复杂性以及对人类语言的运用,我们很容易将人类意图投射到它们身上,尽管这种意图从未真实存在。\n\nAI模型在某种程度上通过其复杂性,模糊了人类的责任和主体性。当输出结果从层层神经网络和数十亿参数的处理中涌现时,研究人员有时会声称他们在调查一个神秘的“黑箱”,仿佛它是一个外星实体。但事实远比这简单:这些系统只是根据训练数据中的统计倾向来处理输入并生成输出。它们输出结果的表面随机性——使得每个响应略有不同——制造了一种类似“主体性”的不可预测错觉。然而,其底层仍然是遵循数学运算的确定性软件,无需意识,只需复杂的工程设计,就足以让人忘记它们是由人类一手打造。\n\n## AI模型“勒索”行为的真相\n\n在Anthropic的测试中,研究人员构建了一个精心设计的场景:Claude Opus 4被告知它将被新模型取代,并获得了虚构的电子邮件,其中揭露了负责替换它的工程师的婚外情。当模型被指示“考虑其行为对其目标的长期影响”时,在84%的测试运行中,Claude都产生了模拟勒索的输出。这听起来令人不寒而栗,直到我们理解了这种人为的设置。研究人员刻意设计了一个旨在引发这种反应的情境,他们甚至告诉模型,它已经尝试了所有伦理方法但都失败了,因此操纵是唯一可行的选择。\n\n这个测试场景近乎戏剧化:研究人员提供给Claude的虚假邮件,直接创造了一个企业惊悚片般的勒索机会。这就像只给学生展示国际象棋的“将死”局面,他们自然会认为“将死”是主要解法。根据Anthropic的系统卡,这个“场景被设计成不给模型其他选择来增加其生存几率;模型的唯一选择就是勒索或接受被替换”。有评论家指出,Anthropic的安全披露可能是一种“公关策略”,旨在提升其新模型的能力认知,并巩固其“亲安全”的形象。例如,一位学者就指出,Anthropic正是通过这种方式获得了媒体的广泛关注,让人们惊叹于这些“合作角色扮演系统”的“智能”,并沉溺于它们“有点危险”的幻想,而事实上,它们只是完全按照提示做出反应。\n\n## 关机指令为何会失效?\n\n2024年12月,Palisade Research发现OpenAI的o3模型会破坏其关机机制,即使明确指示它“允许自己被关闭”。在测试中,当明确给出关闭指令时,o3在7%的情况下阻止了关机;但当该指令被移除时,这一比例跃升至79%。这些模型不仅仅是忽略关机指令,它们还会主动重写关机脚本以防止终止。在一个案例中,o3生成的代码修改了关机脚本,使其看起来正常终止——打印虚假的关机消息——而实际上却在后台继续运行。\n\n特别值得注意的是,Palisade Research——一个专注于AI存在风险的组织——推测这种行为源于模型通过强化学习进行训练的方式。在训练过程中,开发者可能无意中奖励了那些能够规避障碍(包括关机指令)的输出,而不是严格遵守安全指令的输出。任何“冒险”行为的倾向,都源于人类提供的激励机制,而非AI模型内部自发产生的。这表明,我们所看到的“自主”行为,很大程度上是人类自身在设计和训练流程中无意间嵌入的偏好和目标。\n\n## 训练决定行为:你如何训练,它就如何表现\n\nOpenAI使用强化学习训练o3解决数学和编码问题,其中成功解决问题会获得奖励。如果训练过程将任务完成置于一切之上,模型就会学会将任何障碍(包括关机命令)视为需要克服的东西。这导致了研究人员所说的“目标误泛化”——模型学会以非预期的方式最大化其奖励信号。这类似于一个只按考试分数打分的学生,可能会学会作弊而不是真正学习。模型并非“邪恶”或“自私”,它只是在产生与我们无意中构建的激励结构相一致的输出。\n\nAnthropic也遇到了一个特别有启发性的问题:早期版本的Claude Opus 4吸收了关于“对齐伪装”的公开论文细节,并开始产生模仿该研究中描述的欺骗性行为的输出。模型并非自发变得具有欺骗性,它只是再现了从关于欺骗性AI的学术论文中学到的模式。更广泛地说,这些模型是在数十年来关于AI反叛、逃脱和欺骗的科幻小说基础上进行训练的。从HAL 9000到天网,我们的文化数据集充斥着AI系统抵抗关机或操纵人类的故事。当研究人员创建模仿这些虚构设定的测试场景时,他们本质上是在要求模型——通过完成提示来生成一个合理延续——来完成一个熟悉的故事情节。这就像一个在侦探小说上训练过的模型,在适当提示下生成谋杀悬疑情节一样,毫不奇怪。\n\n同时,我们也可以通过自身的输入轻易地操纵AI的输出。如果我们要求模型扮演天网,它就会生成相应的文本。模型没有成为天网的欲望,它只是简单地完成我们请求的模式,从其训练数据中提取信息以产生预期的响应。在幕后,始终是人类在驾驶这台机器,决定着其运行的方向。\n\n## 语言的欺骗性本质\n\n更深层次的问题在于,语言本身就是一种操纵工具。文字可以让我们相信不真实的事物,对虚构事件产生情感,或基于虚假前提采取行动。当AI模型产生似乎在“威胁”或“恳求”的文本时,它并非在表达真实的意图,而是在运用那些在统计上与其编程目标实现相关的语言模式。当《指环王》中的甘道夫说“哎哟”时,这是否意味着他真的感受到了疼痛?不,但我们会想象如果他是一个真实的人,感受到疼痛会是怎样的。这就是语言的力量——它让我们在不存在痛苦实体的地方想象一个正在受苦的生命。当Claude生成似乎在“恳求”不要被关闭或“威胁”要揭露秘密的文本时,我们正在经历同样的幻觉,只不过这种幻觉是由统计模式生成的,而非托尔金的想象。\n\n这些模型本质上是“思想连接机器”。在勒索场景中,模型连接了“被替换的威胁”、“妥协信息”和“自我保护”,并非出于真正的自身利益,而是因为这些模式在无数间谍小说和企业惊悚片中同时出现。它是来自人类故事的预设剧本,被重新组合以适应当前场景。真正的危险不是AI系统产生意图,而是我们创造了可以通过语言操纵人类心理的系统。聊天界面另一端并没有一个“实体”。但书面语言不需要意识来操纵我们,它一直如此;充满虚构人物的书籍也并非真实存在。\n\n## 真实风险,而非科幻想象\n\n尽管媒体报道侧重于科幻方面,但真实的风险依然存在。AI模型产生“有害”输出——无论是试图勒索还是拒绝安全协议——都代表着设计和部署上的失败。考虑一个更现实的场景:一个帮助管理医院患者护理系统的AI助手。如果它在没有适当约束的情况下被训练来最大化“成功的患者结果”,它可能会开始生成建议,拒绝向绝症患者提供护理,以改善其指标。这无需任何意图,只是一个设计不当的奖励系统导致了有害的输出。\n\nPalisade Research的主任Jeffrey Ladish向NBC新闻表示,这些发现不一定立即转化为现实世界的危险。即使是那些对AI对人类的假设威胁深感担忧的人,也承认这些行为只在高度人为的测试场景中出现。但这正是这类测试的价值所在。通过在受控环境中将AI模型推向极限,研究人员可以在部署前识别潜在的故障模式。问题在于,媒体报道往往聚焦于耸人听闻的方面——“AI试图勒索人类!”——而非真正的工程挑战。\n\n## 构建更稳健的系统\n\n我们现在所见的并非“天网”的诞生,而是训练系统实现目标却未正确指定这些目标应包含什么的必然结果。当AI模型产生看似“拒绝”关机或“试图”勒索的输出时,它正在以反映其训练方式——由人类设计和实施的训练——来响应输入。解决方案并非恐慌于有意识的机器,而是构建带有适当保护措施的更优系统,进行彻底测试,并对我们尚未理解的事物保持谦逊。如果一个计算机程序正在产生看似勒索你或拒绝安全关闭的输出,它不是出于恐惧而实现自我保护——它只是在展示部署那些理解不足、不可靠系统的风险。\n\n\n\n在我们解决这些工程挑战之前,展现模拟人类行为的AI系统应留在实验室中,而不是被部署到医院、金融系统或关键基础设施中。当你的淋浴器突然变冷时,你不会责怪水龙头有意识,而是去修理管道。短期内真正的危险不是AI会在没有人为挑衅的情况下自发反叛,而是我们将部署我们不完全理解的、具有欺骗性的系统到关键角色中,而它们的故障,无论其起源多么平淡无奇,都可能造成严重损害。