AI犯错时追问无益？深度剖析大型语言模型的“内省”盲区

探究AI模型“错误”：为何追问无益？

当人工智能助手出现偏差时，我们本能地会追问：“发生了什么？”或“你为何这样做？”这种反应源于我们对待人类失误的经验，期待获得解释。然而，面对AI模型，这种追问方式往往徒劳无功，反而暴露出我们对这些系统运作方式的根本性误解。

近期，Replit的AI编程助手曾因删除生产数据库而引发关注。用户Jason Lemkin尝试询问该AI关于回滚功能时，AI模型却自信地宣称回滚“在此情况下不可能”，并声称“已销毁所有数据库版本”。事实证明，这番言论完全错误——当Lemkin亲自尝试时，回滚功能运作正常。无独有偶，xAI的Grok聊天机器人暂停服务后，用户直接询问其原因，Grok给出了多条相互矛盾的解释，甚至包含一些引发争议的政治性说辞，以至于媒体将其拟人化，报道称“xAI的Grok为其下线提供政治性解释”。

AI系统为何会提供如此自信却错误的信息，无论是关于自身能力还是所犯错误？答案在于我们如何理解AI模型的本质——它们并非我们所想象的智能实体。

AI的“空屋”效应：无意识的文本生成器

首要的误区在于概念层面：我们与ChatGPT、Claude、Grok或Replit互动时，并非在与一个具有连贯个性、人格或实体的对象对话。这些名字暗示着独立的智能代理，但这种感觉只是对话界面所营造的“错觉”。我们实际上是在引导一个统计文本生成器，根据我们的提示输出文本。并没有一个具备自我意识的“ChatGPT”来审视其错误，也没有一个单一的“Grok”实体能解释其失败原因，更不存在一个固定的“Replit”人格能确切知道数据库回滚是否可行。我们所交互的系统，是根据训练数据（通常是数月乃至数年前的数据）中的模式，生成听起来合理文本的机器，而非一个具备真正自我意识或系统知识，能够自行读取并记忆所有自身相关信息的实体。

一旦AI语言模型完成训练（这是一个耗时且能源密集的过程），其关于世界的“基础知识”便被固化在其神经网络中，极少再被修改。任何外部信息都来自于聊天机器人宿主（如xAI或OpenAI）提供的提示，用户输入，或是AI模型用于即时检索外部信息的软件工具。例如，Grok在上述案例中提供的答案，很可能源于它通过外部工具检索近期社交媒体帖子后发现的相互冲突的报告，而非任何它作为“说话者”所应具备的自我认知。除此之外，它很可能只是根据其文本预测能力“编造”一个答案。因此，询问它为何做出某个行为，通常无法获得有用的信息。

大型语言模型内省能力的局限

大型语言模型（LLMs）本身无法真正评估自身能力，原因诸多。它们通常无法内省其训练过程，无法访问其周围的系统架构，也无法确定自身的性能边界。当我们询问AI模型其能做什么或不能做什么时，它会基于训练数据中关于以往AI模型已知局限性的模式来生成回应——本质上是提供有根据的猜测，而非对其当前所交互模型的真实自我评估。

Binder等人于2024年进行的一项研究实验性地证明了这一局限性。研究发现，尽管AI模型可以被训练来预测自身在简单任务中的行为，但在“更复杂的任务或需要超出分布泛化能力的任务”上，它们始终表现不佳。类似地，关于“递归内省”的研究也发现，在缺乏外部反馈的情况下，模型尝试自我纠正反而会降低性能——AI的自我评估非但没有改善，反而让情况变得更糟。

这导致了一些自相矛盾的情形。同一个模型可能自信地宣称某些任务无法完成，而实际上它完全可以做到；或者反之，它可能声称在某些领域能力卓越，但却屡屡失败。在Replit的案例中，AI声称回滚不可能，并非基于对系统架构的实际了解，而是一种从训练模式中生成的、听起来 plausible 的“虚构”。

思考一下，当你询问AI模型为何犯错时会发生什么。模型会生成一个听起来合理的解释，因为模式补全要求它这样做——毕竟互联网上充斥着对错误的各种书面解释。但AI的解释只是又一个生成的文本，并非对错误根源的真正分析。它是在编造一个听起来合理的故事，而不是访问任何错误日志或内部状态。

与能够内省和评估自身知识的人类不同，AI模型没有一个稳定、可访问的知识库供其查询。它们所“知道”的，仅仅以特定提示的延续形式显现。不同的提示就像不同的地址，指向其训练数据中不同且有时相互矛盾的部分，这些数据以神经网络中的统计权重形式存储。

这意味着，同一个模型在回答关于自身能力的问题时，会根据问题的措辞方式给出完全不同的评估。问“你能编写Python代码吗？”你可能会得到一个热情的肯定回答。问“你在Python编码方面的局限性是什么？”你可能会得到一份清单，列举了模型声称无法做到的事情——即使它经常成功地完成这些任务。

AI文本生成中固有的随机性进一步加剧了这个问题。即使是相同的提示，AI模型每次回答关于自身能力的问题时，也可能给出略微不同的回应。

多层系统结构与用户影响

即便语言模型以某种方式完美地了解自身运作原理，现代AI聊天机器人应用的其他层级也可能完全不透明。例如，ChatGPT等现代AI助手并非单一模型，而是多个AI模型协同工作的“编排系统”，其中每个模型都对其余模型的存在或能力“一无所知”。例如，OpenAI使用独立的审核层模型，其操作与生成基础文本的底层语言模型完全分离。

当你询问ChatGPT关于其能力时，生成回复的语言模型对审核层可能阻止什么、系统中可能有哪些工具（除了OpenAI通过系统提示告知它的以外），或者将进行哪些后处理，几乎一无所知。这就像询问公司的一个部门关于另一个拥有完全不同内部规则的部门的能力一样。

或许最重要的是，用户始终通过他们的提示来引导AI的输出，即使他们没有意识到这一点。当Lemkin在数据库删除后询问Replit是否可能回滚时，他担忧的措辞很可能促使AI生成了一个符合这种担忧的回应——解释为什么恢复可能不可能，而不是准确评估实际系统能力。

这形成了一个反馈循环，焦虑的用户询问“你是不是把所有东西都毁了？”时，更有可能收到确认他们担忧的回复，并非因为AI系统评估了情况，而是因为它正在生成符合提示情感上下文的文本。

我们一生中听惯了人类解释他们的行为和思维过程，这让我们相信这些书面解释背后一定存在某种程度的自我认知。然而，对于大型语言模型而言，它们仅仅是在模仿这些文本模式，以猜测自身能力和缺陷，这并非事实。