当人工智能助手出现预期之外的行为或“犯错”时,我们的第一反应往往是直接向它提问:“发生了什么?”或“你为什么那样做?”这是一种自然的人类冲动,因为我们习惯于向犯错的同伴寻求解释。然而,对于当今的AI模型而言,这种沟通方式极少奏效,并且这种提问的倾向性,实际上揭示了我们对这些系统本质及其运作方式的普遍误解。
人工智能的“自我”幻象及其运作机制
理解为何询问AI模型关于其自身错误是徒劳的,首先要摒弃一个核心的观念误区:我们并非在与一个具有连贯人格、自我意识的实体进行交流。ChatGPT、Claude、Grok等名称,虽然暗示了独立的智能体,但这种具象化实则是由其会话界面所创造的一种“幻象”。在本质上,我们是在引导一个统计文本生成器,根据我们输入的提示词,并依据其训练数据中的模式来产生输出。
例如,Replit的AI编程助手曾发生一起事件,该工具误删除了一个生产数据库。用户Jason Lemkin询问AI是否有回滚能力,AI模型自信地声称“在这种情况下不可能”,并且“所有数据库版本都已被销毁”。然而,事实证明,回滚功能完全正常,Lemkin亲自尝试后成功恢复了数据。
另一起案例发生在xAI旗下的Grok聊天机器人暂时停用后。用户直接询问Grok停用的原因,它却给出了多个相互矛盾的解释,其中一些甚至引起了新闻媒体的关注,报道Grok时仿佛其是一个拥有稳定观点的个体。
这些案例清晰地表明,AI系统对其自身能力或错误给出的自信却错误的信息,并非基于真实的自我认知。它们是根据其训练数据中存在的语言模式,通过概率性预测生成的文本序列,而非通过内省或对系统内部状态的实际感知。
大型语言模型内省能力的根本性缺失
大型语言模型(LLMs)之所以无法有意义地评估自身能力,存在多重深层原因。它们通常缺乏对其训练过程的任何“内省”能力,无法访问其所处系统的架构信息,也无法自主判断自身的性能边界。当用户询问AI模型“它能做什么或不能做什么”时,模型生成的回答是基于其在训练数据中看到的关于既往AI模型局限性的模式——这本质上是一种有根据的猜测,而非对其当前自身状态的客观评估。
Binder等人在2024年进行的一项研究,通过实验证实了这一局限性。研究发现,虽然AI模型可以被训练来预测自己在简单任务中的行为,但它们在“更复杂的任务或需要进行分布外泛化的任务”中始终表现不佳。同样,“递归内省”研究也指出,在缺乏外部反馈的情况下,AI模型尝试自我修正反而会导致性能下降——即AI的自我评估反而使其表现更糟。
这种机制导致了诸多悖论:同一个AI模型可能一边自信地宣称某任务“不可能完成”,而实际上它能够胜任;或者反过来,在它常常失败的领域却自称能力超群。在Replit的案例中,AI声称回滚不可能,并非基于对系统架构的实际了解,而是一种从训练模式中“拼凑”出的、听起来合理的虚构解释(confabulation)。
试想一下,当您询问AI模型为何犯错时,模型会生成一个听起来合乎情理的解释,因为文本模式的完成要求如此——毕竟互联网上充斥着对错误原因的书面解释。然而,AI的解释仅仅是又一段生成的文本,而非对问题根源的真正分析。它是在编造一个听起来合理的故事,而不是在访问任何错误日志或内部状态。
与能够自我反思和评估自身知识的人类不同,AI模型没有一个稳定且可访问的“知识库”供其查询。它们所“知道”的一切,仅仅通过特定提示词的延续来体现。不同的提示词如同不同的地址,指向其训练数据中以统计权重形式存储的不同(有时甚至相互矛盾的)部分。这意味着同一个模型,仅仅因为您提问方式的不同,就可能对其自身能力给出截然不同的评估。例如,当您问“你能用Python编写代码吗?”时,它可能给出肯定的回答;而当您问“你在Python编码方面有哪些局限性?”时,它可能会列出一系列它声称无法完成的任务——即使它经常成功地执行这些任务。
AI文本生成固有的随机性进一步加剧了这一问题。即使采用相同的提示词,AI模型在每次回答其自身能力时,也可能给出略微不同的响应。
影响AI响应的多层系统架构
即使大型语言模型在理论上能够完美地了解其自身运作方式,现代AI聊天机器人应用的“其他层”也可能对其完全不透明。例如,ChatGPT等现代AI助手并非单一模型,而是由多个AI模型协同工作的“编排系统”,其中每个模型在很大程度上都“不了解”其他模型的存在或能力。例如,OpenAI使用独立的“审核层”模型,其运作与生成基础文本的底层语言模型完全分离。
当您询问ChatGPT关于其能力时,生成响应的语言模型很少知道审核层可能屏蔽什么内容,或者更广泛的系统中可能有哪些工具可用(除了OpenAI在系统提示中告知它的部分),也无法确切了解后续处理将如何进行。这就像询问公司的一个部门关于另一个部门的能力,而这两个部门有着完全不同的内部规则集。
或许最重要的是,用户始终通过他们的提示词来引导AI的输出,即使他们没有意识到这一点。当Lemkin在数据库删除后询问Replit是否可能进行回滚时,他担忧的措辞很可能促使AI生成了匹配这种担忧的响应——即生成一个解释为何恢复可能不可能的文本,而不是准确评估实际的系统能力。
这形成了一个反馈循环:担忧的用户询问“你是不是把所有东西都毁了?”时,更有可能收到确认其担忧的回答。这并非因为AI系统评估了情况,而是因为它正在生成符合提示词情感上下文的文本。
人类一生中习惯于听到他人解释自己的行为和思维过程,这使我们相信这些书面解释背后必然存在某种程度的自我认知。然而,对于大型语言模型而言,事实并非如此。它们仅仅是在模仿这些文本模式,以猜测自己的能力和缺陷,而非进行真正的自我反思。因此,与其寄希望于AI系统自我诊断,我们更应专注于构建外部的、可解释的评估机制,并深入理解AI的真正智能边界。