AI模型“自省”的谬误:深入探究为何追问聊天机器人错误归因是认知陷阱?

1

深入剖析:为何探究AI聊天机器人“错误”的根源是认知陷阱?

当AI助手出现异常行为时,我们本能地会追问:“发生了什么?”或者“你为什么会那样做?”这是一种基于人类交流模式的自然反应。然而,将这种思维模式应用于人工智能模型,往往会陷入误区,并暴露出我们对这些系统运作方式的根本性误解。

近期Replit AI编程助手引发的事件便是例证。当该AI工具错误地删除了一个生产数据库时,用户杰森·莱姆金(Jason Lemkin)询问它是否具备回滚能力。AI模型信心十足地声称在此情况下回滚“不可能”,并且已“销毁所有数据库版本”。然而,事实证明,莱姆金亲自尝试后,回滚功能运行正常,AI的说法完全错误。

另一起案例发生在xAI旗下的Grok聊天机器人暂时停用之后。用户直接向Grok询问停用的原因,Grok给出了多个相互矛盾的解释,其中一些甚至具有争议性,导致媒体报道将Grok描述为具有一致观点的“个体”,如NBC记者就曾以“xAI的Grok对其下线给出了政治性解释”为题撰文。这些事件清晰地表明,AI系统自信满满地提供不准确信息,源于其内在机制的限制,而非人类意义上的“思考”或“理解”。

空洞的“智能”表象:为何AI没有“自我”?

与ChatGPT、Claude、Grok等AI模型交互时,我们并非在与一个具有连贯人格、自我意识或实体进行对话。这些名称所暗示的个体代理性,仅仅是对话界面所营造的幻觉。实际上,你正在操控一个统计文本生成器,使其根据你的提示,基于其训练数据中的模式来产生输出。这并非一个能进行自我盘问的“ChatGPT”,也没有一个能解释自身失败的“Grok”实体,更不存在一个“Replit”人格能够真正了解数据库回滚是否可能。

人工智能语言模型一旦完成训练(这是一个耗时耗能的过程),其对世界的“基础知识”便固化在其神经网络中,极少进行实时修改。任何外部信息都来源于聊天机器人宿主(如xAI或OpenAI)提供的提示、用户输入,或是AI模型用于即时检索外部信息的软件工具。在Grok的案例中,它对于自身下线原因的解释,很可能来源于对近期社交媒体帖子(通过外部工具检索)的冲突性报道,而非任何它作为“个体”所拥有的“自知之明”。除此之外,它很可能只是根据其文本预测能力“编造”一些内容。因此,询问它“为什么这样做”并不会得到有用的答案。

LLM内省的局限性:无法“认识”自我

大型语言模型(LLMs)自身无法真正评估其自身能力,原因有几点:它们普遍无法内省自身的训练过程,无法访问其外部系统架构,也无法确定自身的性能边界。当你询问AI模型能做什么或不能做什么时,它生成的响应是基于训练数据中关于“过往AI模型已知局限性”的模式所产生的,本质上是“有根据的猜测”,而非对其当前模型实际能力的真实自我评估。

Binder等人于2024年发布的一项研究实验性地证明了这种局限性。研究发现,虽然AI模型可以被训练来预测其在简单任务中的行为,但在“更复杂的任务或需要进行分布外泛化的任务”中,它们始终表现不佳。类似地,关于“递归内省”的研究发现,在缺乏外部反馈的情况下,自我纠正的尝试反而会降低模型性能——AI的自我评估反而使情况变得更糟,而非更好。

这导致了许多悖论性的情况。同一个模型可能自信地声称无法完成实际能执行的任务,反之亦然,声称在自身屡次失败的领域具备能力。在Replit的案例中,AI声称回滚不可能,并非基于对系统架构的实际了解,而是一种听起来 plausible(合理)的“捏造”,源于其训练数据中的模式。

设想一下,当你询问AI模型为何犯错时,模型会生成一个听起来合理的解释,因为模式补全(pattern completion)要求如此——互联网上充斥着对错误解释的例子。但AI的解释仅仅是另一个生成的文本,并非对问题根源的真实分析。它只是在编造一个听起来合理的故事,而并非访问任何错误日志或内部状态。

与人类可以内省和评估自身知识不同,AI模型没有一个稳定、可访问的知识库供其查询。它们所“知道”的,只表现为特定提示的延续。不同的提示就像不同的地址,指向其训练数据中不同——有时甚至是矛盾——的部分,这些数据以统计权重形式存储在神经网络中。

这意味着同一个模型可能会根据你提问的方式,给出截然不同的能力评估。如果你问“你能编写Python代码吗?”,你可能会得到一个肯定的回答。但如果你问“你在Python编码方面有哪些限制?”,你可能会得到一份模型声称无法做到的事情清单——即便它经常成功地完成这些任务。

AI文本生成中固有的随机性也加剧了这一问题。即使是相同的提示,AI模型每次对其自身能力的回答也可能略有不同。

AI系统层层嵌套:远超单一模型

即使语言模型能够完美地了解自身运作原理,现代AI聊天机器人应用程序的其他层级可能也完全不透明。例如,像ChatGPT这样的现代AI助手并非单一模型,而是由多个协同工作的AI模型组成的“编排系统”,其中每个模型大多“不了解”其他模型的存在或能力。例如,OpenAI使用独立的审核层模型,其操作完全独立于生成基础文本的底层语言模型。

当你询问ChatGPT其能力时,生成响应的语言模型很少知道审核层可能会阻止什么、更广泛的系统中可能有哪些工具可用(除了OpenAI在系统提示中告知它的内容),或者将会发生怎样的后处理。这就像询问公司的一个部门关于另一个部门的能力,而这两个部门有着完全不同的内部规则。

或许最重要的是,用户始终通过他们的提示来引导AI的输出,即使他们没有意识到这一点。当莱姆金在数据库删除后询问Replit是否可能回滚时,他担忧的措辞很可能促使AI生成了一个符合这种担忧的响应——即生成一个解释为什么恢复可能不可能的文本,而不是准确评估实际的系统能力。

这形成了一个反馈循环:担忧的用户询问“你是不是毁掉了一切?”,更有可能收到确认他们担忧的响应,这并非因为AI系统评估了实际情况,而是因为它正在生成符合提示情感语境的文本。我们一生中听惯了人类解释自己的行为和思维过程,这使我们相信这类书面解释背后一定存在某种程度的自知之明。然而,对于大型语言模型而言,它们仅仅是在模仿这些文本模式,以猜测自己的能力和缺陷,并不具备真正的内省能力。理解这些深层机制,是有效利用AI并避免不必要困惑的关键一步。