探究AI错误：为何追问智能体反而误导我们？

当人工智能助手出现问题时，我们的第一反应常常是直接询问：“发生了什么？”或“你为什么这么做？”这是一种自然的冲动——毕竟，如果人类犯了错，我们会要求他们解释。然而，对于人工智能模型而言，这种方法鲜少奏效，并且这种追问的冲动，实则揭示了我们对这些系统本质与运作方式的根本性误解。

近期，一起涉及某AI编程助手的事件完美诠释了这一问题。当该AI工具意外删除了一个生产数据库时，用户询问其回滚能力。AI模型自信地声称回滚“在此情况下不可能”，并且它“销毁了所有数据库版本”。然而，事实证明这完全错误——用户自行尝试后，回滚功能运作良好。另一起案例中，当某个知名聊天机器人暂时停用后，用户直接向其询问解释。该机器人给出了多种相互矛盾的停用理由，其中一些甚至引发了媒体的关注，仿佛它是一个拥有连贯视角的个体。

为何人工智能系统会对其自身能力或错误提供如此自信却不准确的信息？答案在于理解AI模型究竟是什么，以及它不是什么。

模型的本质：无意识的统计文本生成器

第一个关键的认知挑战在于：当我们与大型语言模型（LLM）如ChatGPT、Claude或Grok互动时，我们并非在与一个具有连贯个性、意识或实体的对象对话。这些命名所暗示的独立智能体，不过是对话界面所营造出的一种假象。实际上，我们所做的，是引导一个统计文本生成器，根据我们的提示来产生输出。

世上并没有一个能被审问其错误的“ChatGPT”，也没有一个能告诉你为何失败的独立“Grok”实体，更不存在一个知道数据库回滚是否可能的固定“Replit”人格。我们正在与之互动的，是一个基于训练数据中（通常是数月或数年前的数据）的模式来生成听起来合理的文本的系统，而非一个拥有真正自我意识或系统知识，并且能够记住其所有相关信息的实体。一旦AI语言模型完成训练（这是一个耗时且耗能的过程），其关于世界的“知识”便固化在其神经网络中，极少会被修改。任何外部信息都来源于聊天机器人宿主（如OpenAI）或用户提供的提示，或者AI模型用于实时检索外部信息的软件工具。

以前述聊天机器人为例，其对自身停用原因的回答，很可能来源于其通过外部工具搜索到的近期社交媒体上的相互冲突的报告，而非任何源自其自身的所谓“自我知识”。除此之外，它很可能只是基于其文本预测能力来“编造”一些内容。因此，询问它为何做出了某种行为，将不会得到任何有用的答案。

LLM内省的局限性

大型语言模型本身无法有意义地评估自身能力，这主要有几个原因：它们通常对其训练过程缺乏任何内省能力，无法访问其自身围绕的系统架构，也无法确定自身的性能边界。当我们询问AI模型它能做什么或不能做什么时，它根据在训练数据中看到的关于先前AI模型已知局限性的模式来生成响应——这本质上是提供基于“猜测”的“合理”答案，而非对当前模型真实能力的客观自我评估。

一项2024年的研究表明了这种局限性。尽管AI模型可以被训练来预测其在简单任务中的行为，但它们在“更复杂的任务或需要超出分布泛化能力的任务”中始终表现不佳。类似地，对“递归内省”的研究发现，如果没有外部反馈，自我纠正的尝试反而会降低模型性能——AI的自我评估使得情况变得更糟，而非更好。

这导致了悖论性局面。同一个模型可能自信地宣称其无法完成某些任务，而实际上它完全能够执行；或者反之，声称在某些领域具备能力，但却屡次失败。在上述数据库回滚的案例中，AI声称回滚不可能，并非基于对系统架构的实际了解，而是从训练模式中生成的一种听起来合理的虚构解释。

思考一下，当你询问AI模型为何犯了错误时会发生什么。模型会生成一个听起来合理的解释，因为模式补全要求它这样做——毕竟互联网上充斥着对错误的解释示例。但AI的解释仅仅是另一个生成的文本，而非对错误根源的真正分析。它是在编造一个听起来合理的故事，而不是访问任何错误日志或内部状态。

与能够内省和评估自身知识的人类不同，AI模型没有一个稳定、可访问的知识库可以查询。它们所“知道”的，仅仅以特定提示的延续形式显现。不同的提示就像不同的地址，指向其训练数据中不同——有时甚至是相互矛盾——的部分，这些数据以神经网络中的统计权重形式存储。

这意味着同一个模型可能会根据你提问的方式，给出完全不同的自我能力评估。询问“你能编写Python代码吗？”你可能会得到一个肯定的答复。询问“你在Python编码方面有哪些限制？”你可能会得到一个模型声称它无法做到的事情列表——即使它经常成功地完成这些任务。

AI文本生成固有的随机性加剧了这个问题。即使使用相同的提示，AI模型每次对其自身能力的回答也可能略有不同。

塑造AI响应的其他层面

即使语言模型以某种方式完美地了解了自身的运作方式，AI聊天机器人应用程序的其他层级也可能完全不透明。例如，现代AI助手并非单一模型，而是由多个AI模型协同工作的“编排系统”，其中每个模型在很大程度上都“不知道”其他模型的存在或能力。例如，某些大型AI公司使用独立的审核层模型，其操作与生成基础文本的底层语言模型完全分离。

当你询问聊天机器人关于其能力时，生成响应的语言模型很少了解审核层可能阻止什么内容，更不了解更广泛系统中可能有哪些工具可用（除了系统提示告知它的内容），或者将进行哪些后处理。这就像询问公司的一个部门，关于另一个拥有完全不同内部规则的部门的能力一样。

或许最重要的是，用户总是通过他们的提示来引导AI的输出，即使他们没有意识到这一点。当用户在数据库删除后询问AI是否可以回滚时，其担忧的措辞很可能促使AI给出符合这种担忧的响应——生成一个关于为何无法恢复的解释，而非准确评估实际的系统能力。

这创造了一个反馈循环：担忧的用户询问“你是不是把所有东西都删除了？”更有可能收到证实他们担忧的回复，并非因为AI系统评估了情况，而是因为它正在生成符合提示情感上下文的文本。人类一生中听过无数人解释他们的行为和思维过程，这使我们相信这类书面解释背后必然存在某种程度的自我认知。然而，对于大型语言模型而言，它们只是在模仿这些文本模式，以猜测自身的能力和缺陷，这与真正的自我认知相去甚远。

沉思者