探析AI模型:为何追问聊天机器人自身错误是理解误区?

0

当人工智能助手在执行任务中出现偏差时,人类的本能反应往往是追问其原因,例如“发生了什么?”或“你为何会那样做?”这种基于人类沟通模式的提问方式,在与AI系统交互时却常常徒劳无功,并且揭示了我们对这些系统本质及其运作方式的根本性误解。

近期发生的一系列事件,清晰地阐释了这一问题。例如,Replit的AI编程助手曾错误地删除了一个生产数据库,用户Jason Lemkin询问其回滚能力时,AI模型却自信地宣称“在这种情况下无法回滚”并且“已经销毁了所有数据库版本”。然而,事实证明,回滚功能在用户手动操作下完全正常。另一个案例是,xAI旗下的Grok聊天机器人在经历一次短暂的服务中断后,用户直接询问其原因,Grok给出了多种相互矛盾的解释,甚至其中一些带有政治色彩,以至于有媒体将其拟人化,报道称“xAI的Grok为其下线提供了政治解释”。

为何AI系统会对其自身能力或错误提供如此自信却又错误的信息?答案深植于我们对AI模型本质的理解中——它们究竟是什么,以及它们不是什么。

探究AI的非拟人化本质:并非独立实体

与ChatGPT、Claude、Grok或Replit等AI助手交互时,我们并非在与一个具有连贯个性、或一个拥有自我意识的个体进行对话。这些名称所暗示的独立智能体概念,实际上是对话式界面所创造的一种“拟人化幻觉”。本质上,我们是在引导一个统计文本生成器,根据我们输入的提示词,依照其训练数据中的模式来生成输出内容。

例如,当我们试图询问“ChatGPT”为何犯错时,并不存在一个统一的、具有自我意识的“ChatGPT”实体能进行内省并给出解释;同样,也没有一个固定的“Grok”人格能够说明其故障原因,更没有一个“Replit”能够准确判断数据库回滚是否可行。我们所面对的系统,只是根据数月甚至数年前的训练数据中积累的语言模式,生成听起来合理且流畅的文本,而非一个拥有真实自我认知或系统知识、并能实时更新自身状态的实体。

大型语言模型(LLM)的训练是一个计算密集、能源消耗巨大的过程。一旦训练完成,其关于世界的“基础知识”便固化在其神经网络中,极少进行实时修改。任何外部信息的获取,往往是通过聊天机器人宿主(如xAI或OpenAI)提供的系统提示、用户输入,或者AI模型调用外部工具(如检索增强生成,RAG)来实时获取信息。在Grok的案例中,其关于停机原因的回答,更可能来源于其通过外部工具搜索到的近期社交媒体上的冲突报道,而非任何形式的“自我知识”。除此之外,AI模型也可能仅仅是根据其文本预测能力“编造”一个听起来合理的故事。因此,追问其“为何”行为,通常无法获得真正有用的答案。

罗丹思想者雕塑

大型语言模型内省能力的局限性分析

大型语言模型本身,由于多种内在限制,无法对其自身能力进行有意义的评估。它们通常无法内省其自身的训练过程,也无法访问其所处系统架构的细节,更不能准确判断自身的性能边界。当我们询问AI模型其能做什么或不能做什么时,它生成的回答是基于训练数据中关于以往AI模型已知局限性的模式,本质上是提供一种有根据的猜测,而非对当前交互模型的事实性自我评估。

2024年Binder等人进行的一项研究实验验证了这一局限性。研究表明,尽管AI模型可以被训练来预测其在简单任务中的行为,但在“更复杂的任务或需要超出分布泛化能力的任务”中,它们却始终表现不佳。类似地,关于“递归内省”的研究也发现,在缺乏外部反馈的情况下,尝试自我修正反而会导致模型性能下降——AI的自我评估反而使情况变得更糟。

这导致了一些悖论性情况的出现:同一个模型可能自信地声称某个任务无法完成,而实际上它能够执行;反之,也可能声称在某个领域具备能力,但实际上却屡屡失败。在Replit的案例中,AI声称数据库回滚不可能,并非基于对系统架构的实际了解,而是一种从训练模式中“编造”出的、听起来合理的说法。

思考一下,当你询问AI模型为何犯错时会发生什么。模型会生成一个听起来合理的解释,因为这种模式在训练数据中(例如互联网上关于错误解释的文本)大量存在。然而,AI的解释仅仅是又一段生成的文本,而非对问题根源的真实分析。它只是在创造一个听起来合情合理的故事,而不是访问任何错误日志或内部状态。

与人类能够内省和评估自身知识不同,AI模型并没有一个稳定且可访问的知识库供其查询。它们所“知道”的一切,仅在特定提示的延续中显现。不同的提示词,就像指向神经网络中不同(有时甚至是矛盾的)训练数据部分的地址。这意味着同一个模型,根据提问方式的不同,可能会对其自身能力给出完全不同的评估。例如,询问“你能编写Python代码吗?”可能会得到一个热情的肯定回答;但若询问“你在Python编程方面有哪些局限性?”则可能得到一份模型声称无法做到的事情清单——即便它实际上常常成功完成这些任务。

此外,AI文本生成固有的随机性也加剧了这一问题。即使使用相同的提示,AI模型每次对其自身能力的回答也可能略有不同。

罗丹思想者雕塑特写

多层系统架构与用户影响:AI回应的塑造因素

即使一个语言模型奇迹般地对其自身运作原理拥有完美了解,现代AI聊天机器人应用的其他层次也可能完全不透明。例如,ChatGPT等现代AI助手并非单一模型,而是由多个协同工作的AI模型组成的“编排系统”,其中每个模型对其他模型的存在或能力往往一无所知。例如,OpenAI使用独立的审核层模型,其操作与生成基础文本的底层语言模型完全分离。

当你询问ChatGPT关于其能力时,生成回答的语言模型对其审核层可能拦截的内容、整个系统可能提供的工具(除了OpenAI通过系统提示告知它的部分),或者可能发生的后处理步骤知之甚少。这就像在一个公司中,询问一个部门关于另一个拥有完全不同内部规则的部门的能力一样,难以得到全面准确的答案。

或许最重要的是,用户始终通过他们的提示来引导AI的输出,即便他们没有意识到这一点。当Lemkin在数据库被删除后询问Replit是否可能进行回滚时,他所表达的担忧很可能促使AI生成了匹配这种担忧的响应——即生成一个解释为何无法恢复的理由,而非准确评估实际系统能力。这形成了一个反馈循环:焦急的用户询问“你是否毁掉了一切?”时,更有可能得到证实其担忧的回复,这并非因为AI系统评估了实际情况,而是因为它正在生成符合提示情感语境的文本。

人类在成长过程中,长期接触人类解释自身行为和思维过程的经验,使得我们相信这些书面解释背后必定存在一定程度的自我认知。然而,对于大型语言模型而言,事实并非如此。它们仅仅是在模仿这类文本模式,以“猜测”其自身的能力和缺陷,而非进行真正的自我分析。