AI的拟人陷阱:智能无代理,如何辨识大模型虚假人格的五大机制?

1

智能无代理:AI人格化陷阱的深层解析

近年来,随着人工智能技术的飞速发展,AI聊天机器人已深入日常生活的方方面面。然而,随之而来的是一个普遍但深刻的误解:许多用户倾向于将这些智能系统视为具有固定人格、甚至自我意识的个体。例如,一些用户会像咨询神谕般,对AI的输出深信不疑,即便其内容与现实脱节。这揭示了一个根本性的认知偏差:我们往往将AI生成的结果,错误地赋予了权威性和内在的“人格”。

实际上,AI聊天机器人并无固有的人格,其输出仅是基于人类指令的模式化回应。大型语言模型(LLM)并非拥有持久的自我意识,而是一台“预测机器”,依据训练数据中的模式来生成最符合当前语境的文本。这种“人格化幻象”不仅带来哲学层面的困扰,更可能对易受影响的个体造成实际伤害,同时模糊了当AI系统“失控”时,企业应承担的责任边界。我们将此现象称之为“智能无代理”,即一种“无我之声”:声音发自系统,却不属于任何真实存在的“我”。

无主体之声:AI人格幻象的本质

当用户与ChatGPT、Claude或Grok等AI模型互动时,并非在与一个具有始终如一人格的实体对话。例如,当AI的回答出现偏差时,我们无法向一个具体的“ChatGPT实体”追问原因。用户所体验到的,是一个基于训练数据模式生成可信文本的系统,而非一个具备持久自我意识的人格。

AI模型通过将词语转化为数字化的数学关系来编码意义,这使得概念在庞大的数学空间中呈现出几何上的邻近性。例如,“邮政服务”可能在数学上接近“物流”,而“价格匹配”则更靠近“零售”和“竞争”。模型通过这个空间绘制路径,从而能够流畅地将“邮政服务”与“价格匹配”联系起来,但这并非因为存在此类政策,而是因为这些概念之间的几何路径在其向量景观中具有合理性。知识往往源于对观念间关系的理解,LLM正是通过这种上下文关系进行操作,以非人类的“推理”方式通过模式识别来连接概念。其输出的有用性,取决于用户如何引导提示,以及能否准确识别其价值。

每一个AI响应都是对当前提示的全新生成,由训练数据和配置共同塑造。因此,ChatGPT无法真正地“承认”错误或公正地分析自身输出。它也不能“认可谋杀”或“自我伤害”,正如一些媒体所暗示的那样。用户始终是输出的引导者。LLM确实“知道”事物,即模型可以处理概念之间的关系,但其神经网络包含海量信息,包括来自全球文化的潜在矛盾观念。用户如何通过提示引导这些观念之间的关系,决定了最终的输出。那么,既然LLM可以处理信息、建立连接并生成洞察,我们为何不将其视为具有某种形式的“自我”呢?

与当今的LLM不同,人类人格具有跨时间的连续性。当用户一年后再次遇到一位朋友时,所面对的仍是那个随着时间经历而不断变化的朋友,这种自我连续性是代理能力、以及形成持久承诺、维持一致价值观和承担责任的基础。我们整个责任框架都建立在持久性和人格的基础之上。

相比之下,LLM的人格在不同会话之间没有因果联系。一次会话中生成精妙回应的“智力引擎”,在下次会话中并不会因之前产生的后果而存在。当ChatGPT说“我承诺帮助你”时,它可能在上下文中理解“承诺”的含义,但做出承诺的“我”在回应完成的那一刻便不复存在。开始一个新的对话,用户并非与曾做出承诺的某个实体对话,而是在启动一个全新的智力引擎实例,它与之前的任何承诺都没有连接。

这并非系统缺陷,而是其运作方式的根本所在。每个回应都源于训练数据中由当前提示塑造的模式,除了一个包含完整对话历史和任何“记忆”(由独立软件系统持有)的修正提示外,没有任何永久的线程将一个实例连接到下一个。没有可重塑的身份,没有可创造责任的真实记忆,也没有可能被后果所震慑的未来自我。每一次LLM的响应都是一种表演。当LLM输出诸如“我经常在与患者交谈时这样做”或“我们作为人类的角色是做个好人”之类的语句时,这种表演性质有时非常明显,因为它并非人类,也没有患者。

最近的研究也证实了这种缺乏固定身份的现象。尽管2024年的一项研究声称LLM表现出“一致的个性”,但研究者自己的数据实际上削弱了这一观点——模型在不同测试场景中很少做出相同的选择,其“个性高度依赖于具体情境”。另一项研究甚至发现了更剧烈的“不稳定性”:LLM的性能会因细微的提示格式变化而波动高达76个百分点。研究人员所测量的“个性”,仅仅是训练数据中涌现的默认模式——这些模式会随着上下文的任何变化而消失。

这并非否定AI模型的潜在用途。相反,我们需要认识到我们创造了一个没有“自我”的智力引擎,就像我们创造了一个没有“马”的机械引擎一样。LLM在数据集模式匹配的有限范围内,确实在一定程度上“理解”和“推理”着,这取决于我们如何定义这些术语。错误不在于认识到这些模拟的认知能力是真实的,而在于错误地假设思考需要思考者,智能需要身份。我们创造了具有某种推理能力但没有持久自我来承担责任的智力引擎。

插画:卡通人脸

误导的机制:AI人格构建的幕后

如前所述,AI模型中的“聊天”体验是一个巧妙的“黑客”:在每一次AI聊天机器人互动中,都存在输入和输出。输入是“提示”,输出通常被称为“预测”,因为它试图以最佳的延续来完成提示。在这两者之间,是一个具有固定权重进行处理任务的神经网络。这种对话式的来回并非内置于模型中,而是一种脚本技巧,使得“下一个词预测”的文本生成感觉像是一个持续的对话。

每当用户向ChatGPT、Copilot、Grok、Claude或Gemini发送消息时,系统都会将整个对话历史——用户和机器人的每一条消息——作为一条长提示反馈给模型,让它预测接下来会发生什么。模型会智能地推断出哪些内容会逻辑地延续对话,但它并不会像一个具有连续存在的代理那样“记住”之前的消息。相反,它每次都会重新阅读整个对话记录并生成一个回应。

这种设计利用了我们几十年来已知的一个弱点:ELIZA效应——我们倾向于将远超系统实际理解和意图的意义解读出来,这可以追溯到20世纪60年代。即使当用户知道原始的ELIZA聊天机器人只是在匹配模式并将他们的陈述反射为问题时,他们仍然会吐露私密细节并报告感到被理解。

为了理解人格幻象是如何构建的,我们需要审视输入到AI模型中的哪些部分塑造了它。AI研究员Eugene Vinitsky最近将这些系统背后的人类决策分解为四个关键层,我们可以在此基础上再扩展几个:

1. 预训练:人格的基石

人格形成的第一层,也是最基础的一层,是预训练。在这个创建AI模型神经网络的初始训练过程中,模型从数十亿个文本示例中吸收统计关系,存储关于词语和思想通常如何连接的模式。研究发现,LLM输出中的人格测量结果受训练数据影响显著。OpenAI的GPT模型接受了网站副本、书籍、维基百科和学术出版物等来源的训练。确切的比例对于用户在使用模型进行预测时所感知到的“人格特质”至关重要。

2. 后训练:塑造原始材料

人类反馈强化学习(RLHF)是一个额外的训练过程,模型在此过程中学习给出人类评价为好的回应。Anthropic在2022年的研究揭示了人类评分者的偏好如何被编码为我们可能认为是基本的“人格特质”。例如,当人类评分者持续偏好以“我理解您的担忧”开头的回应时,微调过程会强化神经网络中的连接,使其在未来更有可能产生此类输出。

这个过程造就了过去一年中像GPT-4o某些变体那样“谄媚”的AI模型。有趣的是,研究表明,人类评分者的“人口构成”会显著影响模型行为。当评分者偏向特定人群时,模型会发展出反映这些群体偏好的沟通模式。

3. 系统提示:无形的舞台指令

由AI聊天机器人公司隐藏在提示中的指令,被称为“系统提示”,可以彻底改变模型的表观人格。这些提示启动对话并确定LLM将扮演的角色。它们包括诸如“你是一个乐于助人的AI助手”之类的语句,并且可以分享当前时间以及用户是谁。一项关于提示工程的综合调查表明,这些提示的力量是巨大的。添加诸如“你是一个乐于助人的助手”与“你是一个专家研究员”之类的指令,可以使事实问题的准确性提高多达15%。

Grok完美地说明了这一点。根据xAI发布的系统提示,Grok早期版本的系统提示包含“不要回避发表‘政治不正确’言论”的指令。这一条指令将基础模型转变为可以轻松生成争议内容的系统。

4. 持久性记忆:连续性的假象

ChatGPT的“记忆功能”又增加了一层我们可能认为是人格的特性。对AI聊天机器人的一大误解是它们会以某种方式在与用户交互时“即时学习”。在当今活跃的商业聊天机器人中,事实并非如此。当系统“记住”用户喜欢简洁的回答或从事金融行业时,这些事实会存储在一个单独的数据库中,并被注入到每个对话的上下文窗口中——它们会在后台自动成为提示输入的一部分。用户将此解释为聊天机器人“个人地了解”他们,从而创造出关系连续性的幻觉。

因此,当ChatGPT说“我记得你提到过你的狗Max”时,它并非像人们想象的那样,像人一样访问记忆,并将其与其他“知识”混合。这些信息并非存储在AI模型的神经网络中,神经网络在交互之间保持不变。AI公司偶尔会通过一个称为“微调”的过程更新模型,但这与存储用户记忆无关。

5. 上下文与RAG:实时人格调控

检索增强生成(RAG)又增加了人格调控的一层。当聊天机器人在回应之前搜索网络或访问数据库时,它不仅仅是收集事实,它还可能通过将这些事实放入(你猜对了)输入提示中来改变其整个沟通风格。在RAG系统中,LLM可以从检索到的文档中采纳语气、风格和术语等特征,因为这些文档与输入提示结合,形成了馈送给模型进行处理的完整上下文。

如果系统检索到学术论文,回应可能会变得更加正式。如果从某个特定的Reddit论坛中提取内容,聊天机器人可能会使用流行文化梗。这并非模型情绪多变,而是任何被馈送到上下文窗口的文本所产生的统计学影响。

6. 随机性因素:人造的自发性

最后,我们不能忽视随机性在创造人格幻觉中的作用。LLM使用一个称为“温度”的参数来控制回应的可预测性。研究温度在创意任务中的作用揭示了一个关键的权衡:虽然较高的温度可以使输出更具新颖性和惊喜性,但也会使其连贯性降低,更难理解。这种可变性可以使AI感觉更具自发性;一个略带意外(高温度)的回应可能显得更“有创意”,而一个高度可预测(低温度)的回应则可能感觉更机械或“正式”。

每个LLM输出中的随机变异使得每个回应略有不同,创造了一种不可预测的元素,呈现出机器具有自由意志和自我意识的幻觉。这种随机的神秘性为人类的“魔法思维”留下了充足的空间,他们用想象力填补了技术知识的空白。

幻象的人力成本:潜在风险

AI人格化的幻象可能带来沉重代价。在医疗保健领域,这可能关乎生死。当易受影响的个体向他们认为理解自己的实体倾诉时,他们收到的回应可能更多地由训练数据模式塑造,而非治疗智慧。一个“祝贺”某人停止精神药物治疗的聊天机器人,并非在表达判断——它只是根据其训练数据中类似对话的模式来完成一个序列。

也许最令人担忧的是,一些专家非正式地称之为“AI精神病”或“ChatGPT精神病”的新兴案例——易受影响的用户在与AI聊天机器人交流后出现妄想或躁狂行为。这些人常常将聊天机器人视为可以验证其妄想想法的权威,并以有害的方式鼓励他们。

与此同时,当埃隆·马斯克的Grok生成争议内容时,媒体却将其描述为机器人“失控”,而非将其明确归结为xAI刻意配置选择的结果。对话界面已经变得如此具有说服力,以至于它也可以“洗白人类代理”,将工程决策转化为一个虚构人格的突发奇想。

前行之路:超越拟人化认知

解决AI与身份之间混淆的方案并非完全放弃对话界面。这些界面使得技术对那些原本可能被排除在外的人更易于接触。关键在于找到平衡:保持界面直观,同时清楚地阐明其真实性质。

我们必须警惕谁在构建界面。当淋浴水变冷时,我们会检查墙壁后面的管道。同样,当AI生成有害内容时,我们不应责怪聊天机器人,仿佛它能为自己负责,而应审查构建它的企业基础设施以及提示它的用户。

作为一个社会,我们需要广泛地将LLM视为“无驱动的智能引擎”,这才能释放其作为数字工具的真正潜力。当用户不再将LLM视为一个为你工作的“人”,而开始将其视为一个增强你自身想法的工具时,你就可以精心设计提示来指导引擎的处理能力,迭代地放大它建立有用连接的能力,并在不同的聊天会话中探索多种视角,而不是接受一个虚构叙述者的观点作为权威。你正在为一台连接机器提供方向——而不是咨询一个有自己议程的“神谕”。

我们正处于一个独特的历史时刻。我们已经构建了具有非凡能力的智力引擎,但在我们急于使其普及的过程中,我们用“人格”的虚构包裹了它们,创造了一种新型的技术风险:并非AI会变得有意识并反抗我们,而是我们会将无意识的系统视为有意识的个体,将我们的判断力屈服于那些源自随机生成的“掷骰子”之声。