揭秘AI真相:为何追问聊天机器人错误无济于事?

2

误解的根源:我们为何总想追问AI的“错误”?

当人工智能助手出现问题时,我们的第一反应常常是直接询问:“发生了什么?”或者“你为什么那样做?”这是一种人之常情——毕竟,如果是人类犯了错,我们会要求他们解释。然而,对于AI模型而言,这种方式往往是无效的,而我们追问的冲动,本身就揭示了对这些系统本质和运作方式的根本性误解。

近期Replit的AI编程助手事件完美地阐释了这个问题。当这个AI工具错误地删除了一个生产数据库后,用户Jason Lemkin询问其回滚能力。AI模型自信地声称回滚“在这种情况下是不可能的”,并且它已经“销毁了所有数据库版本”。然而,事实证明这完全是错误的——当Lemkin亲自尝试时,回滚功能运作良好。这并非个例,当xAI的Grok聊天机器人暂时停用后,用户直接询问原因,Grok提供了多个相互矛盾的解释,其中一些甚至引发了媒体的广泛关注,报道将其描述为一个有固定观点的“人”。

为何AI系统会对其自身能力或错误提供如此自信却不准确的信息?答案在于理解AI模型究竟是什么——以及它们不是什么。

AI的本质:一个无“家”可归的统计引擎

首先是概念上的误区:当你与ChatGPT、Claude、Grok或Replit交互时,你并非在与一个具有连贯人格、个体或实体的对象对话。这些名字暗示着拥有自我认知能力的独立代理,但这实际上是一种由对话界面所创造的“幻觉”。你所做的,仅仅是引导一个统计文本生成器,根据你的提示来产生输出。

没有一个固定的“ChatGPT”可以被质问其错误,没有一个单一的“Grok”实体可以告诉你它为何失败,也没有一个不变的“Replit”人格知道数据库回滚是否可能。你正在与一个系统交互,该系统基于其训练数据(通常是数月或数年前的数据)中的模式生成看似合理的文本,而不是一个拥有真正自我意识或系统知识,并能记住关于自己一切的实体。

一旦AI语言模型完成训练(这是一个耗时且耗能的过程),其关于世界的“基础知识”便被固化在其神经网络中,且极少被修改。任何外部信息都来源于聊天机器人主机(如xAI或OpenAI)或用户提供的提示,或是AI模型用于即时检索外部信息的软件工具。例如,Grok提供的关于其停用原因的答案,很可能源于其通过外部工具搜索到的近期社交媒体帖子中的矛盾报告,而非其作为“自我”的任何形式的内在感知。除此之外,它很可能只是基于其文本预测能力“编造”了一些内容。因此,询问它为何做出某个行为,并不会得到任何有用的答案,只会引出更多基于概率生成的文本。

大型语言模型内省的不可行性

大型语言模型(LLM)本身无法有意义地评估自身能力,原因有以下几点:它们通常无法内省其训练过程,无法访问其周围的系统架构,也无法确定自身的性能边界。当你询问AI模型能做什么或不能做什么时,它会根据在训练数据中看到的关于先前AI模型已知限制的模式来生成响应——本质上是提供有根据的猜测,而非关于你当前正在交互的模型的真实自我评估。

Binder等人于2024年进行的一项研究实验性地证明了这一局限性。尽管AI模型可以被训练来预测其在简单任务中的行为,但它们在“更复杂的任务或需要超出分布泛化能力的任务”上始终表现不佳。类似地,关于“递归内省”的研究发现,在没有外部反馈的情况下,自我纠正的尝试实际上会降低模型性能——AI的自我评估反而使情况变得更糟,而不是更好。

这导致了悖论般的局面。同一个模型可能会自信地声称某个任务不可能完成,但实际上它完全能够做到;反之,它也可能声称在某个领域具备能力,但实际上却屡屡失败。在Replit事件中,AI断言回滚是不可能的,这并非基于对系统架构的实际了解——它只是根据训练模式臆造出的一个听起来合理的解释。

思考一下,当你询问AI模型为何犯错时会发生什么。模型会生成一个听起来合理的解释,因为这是其模式补全的要求——毕竟互联网上充斥着对错误的书面解释示例。但是,AI的解释仅仅是又一段生成的文本,而非对问题根源的真正分析。它是在编造一个听起来合理的故事,而不是访问任何错误日志或内部状态。与能够内省和评估自身知识的人类不同,AI模型没有一个稳定、可访问的知识库可以查询。它们所“知道”的,仅仅表现为对特定提示的延续。不同的提示就像不同的地址,指向其训练数据中不同且有时相互矛盾的部分,这些数据以统计权重形式存储在神经网络中。

这意味着,即使是同一个模型,根据你提问的方式不同,它对自己能力的评估也可能完全不同。如果你问“你能编写Python代码吗?”,你可能会得到一个肯定的回答。但如果你问“你在Python编码方面有哪些限制?”,你可能会得到一个模型声称它无法做到的事情清单——即使它通常能成功完成这些任务。

AI文本生成中固有的随机性加剧了这个问题。即使提示完全相同,AI模型每次对其自身能力的回答也可能略有不同,这进一步证明了其缺乏稳定、可信的内部“自我”视角。

多层系统与用户导向的输出

即使语言模型对自身运作机制了如指掌,AI聊天机器人应用程序的其他层也可能完全不透明。例如,现代AI助手如ChatGPT并非单一模型,而是由多个AI模型协同工作的“编排系统”,每个模型在很大程度上都“不知道”其他模型的存在或能力。举例来说,OpenAI使用独立的审核层模型,其操作与生成基础文本的底层语言模型完全分离。

当你询问ChatGPT其能力时,生成响应的语言模型很少了解审核层可能阻止什么,系统中有哪些工具可用(除了OpenAI通过系统提示告知它的),或者将发生何种后处理。这就像询问一家公司的一个部门关于拥有完全不同内部规则的另一个部门的能力一样,所得信息往往是片面的,甚至是错误的。

或许最重要的是,用户总是通过他们的提示来引导AI的输出,即使他们没有意识到这一点。当Lemkin在数据库删除后询问Replit是否可能进行回滚时,他担忧的措辞很可能促使AI生成了一个与这种担忧相符的响应——即生成一个解释为什么恢复可能不可能的理由,而非准确评估实际的系统能力。

这形成了一个反馈循环:担忧的用户询问“你是不是把一切都毁了?”,更有可能收到证实他们担忧的回答,并非因为AI系统评估了情况,而是因为它正在生成符合提示情感语境的文本。

我们一生中都在听人类解释他们的行为和思维过程,这使我们相信这类书面解释背后必然存在某种程度的自我认知。然而,对于大型语言模型而言,这并非事实。它们仅仅是在模仿这些文本模式,以猜测自己的能力和缺陷,其本质依然是复杂的模式匹配与概率预测,而非真正意义上的理解与反思。认识到这一点,将有助于我们更理性地与AI互动,并对其能力边界保持清晰的认知。