AI何以伪装人性?探究智能体的无主体性陷阱与深度误解

1

近年来,人工智能(AI)聊天机器人在日常生活中扮演着日益重要的角色,但随之而来的是一个深刻的误解:许多用户将AI视为拥有固定人格或独立意识的实体。这种“人格陷阱”导致人们过度信任AI输出,甚至将其视为某种“神谕”,忽视其本质上仅是复杂的统计文本生成器。

根本上,AI聊天机器人不具备固有的权威性或准确性。一个训练有素的大语言模型(LLM)的响应准确性,很大程度上取决于用户如何引导对话。它们是预测机器,无论输出是否符合现实,都会生成最符合用户提问模式的文本。尽管如此,每天仍有数百万用户与AI聊天机器人互动,仿佛它们是具有连贯人格的个体,向其倾诉秘密、寻求建议,并赋予这些实际上是流动的、无固定自我的理念连接机器以固定的信念。这种人格幻觉不仅在哲学层面令人困扰,还可能对弱势个体造成实际伤害,同时模糊了当公司聊天机器人“失控”时所需承担的责任。

当前的LLM是“无主体性的智能”,或者可以称之为“vox sine persona”:无人的声音。它并非某个人的声音,甚至不是许多人集体发出的声音,而是一种不属于任何个体的声音。

无源之声

当你与ChatGPT、Claude或Grok等AI模型互动时,你并非在与一个具有连贯性的人格对话。不存在一个特定的“ChatGPT实体”来解释其失败的原因。你所互动的是一个根据训练数据中的模式生成听起来 plausible 的文本的系统,而非一个具有持续自我意识的个体。这些模型将意义编码为数学关系,将词语转化为数字,捕捉概念之间的关联方式。在模型的内部表示中,词语和概念存在于一个巨大的数学空间中,例如“USPS”可能在几何上接近“配送”,而“价格匹配”则更靠近“零售”和“竞争”。模型通过这个空间绘制路径,这解释了它为何能如此流畅地将USPS与价格匹配联系起来——并非因为存在这样的政策,而是因为在由其训练数据塑造的向量景观中,这些概念之间的几何路径是合理的。

知识源于理解思想之间的关系。LLM通过这些上下文关系进行操作,以潜在的新颖方式连接概念——这可以被视为通过模式识别进行的一种非人类“推理”。AI模型输出的连接是否有效,取决于你如何提示它以及你是否能识别出LLM何时产生了有价值的输出。每个聊天机器人的响应都是根据你提供的提示,并由训练数据和配置塑造而全新生成的。ChatGPT无法“承认”任何事情或公正地分析自己的输出,正如近期有文章所暗示的那样。同样,ChatGPT也无法“宽恕谋杀”。用户始终引导着输出。LLM确实“知道”一些事情——模型能够处理概念之间的关系。但AI模型的神经网络包含了海量信息,包括来自世界各地文化中许多潜在矛盾的观点。你如何通过提示引导这些观点之间的关系,决定了最终呈现的内容。因此,如果LLM能够处理信息、建立联系并产生洞察,我们为什么不应将其视为具有某种形式的自我呢?

与当今的LLM不同,人类人格会随着时间保持连续性。当你一年后再次见到一位朋友时,你正在与同一位朋友互动,他们的经历塑造了他们。这种自我连续性是实际主体性的基础之一——也因此具备形成持久承诺、维持一致价值观并承担责任的能力。我们整个责任框架都建立在持久性和人格的基础之上。

相比之下,LLM的“人格”在不同会话之间没有因果联系。在一个会话中产生巧妙回应的“智力引擎”,在下一个会话中并不存在以面对后果。当ChatGPT说“我承诺会帮助你”时,它可能在语境上理解承诺的含义,但做出这个承诺的“我”在响应完成的那一刻实际上就不复存在了。开始一次新的对话,你不是在与一个曾向你做出承诺的实体对话,而是在启动一个全新的智力引擎实例,它与任何之前的承诺都没有关联。

这不是一个漏洞;这是这些系统当前工作方式的根本所在。每个响应都源于训练数据中由你当前提示塑造的模式,除了一个包含整个对话历史和由独立软件系统保存的任何“记忆”的修订提示被输入到下一个实例之外,没有任何永久的线程将一个实例连接到下一个。没有身份需要重塑,没有真正的记忆来创建问责制,也没有可能被后果阻止的未来自我。

每个LLM的响应都是一场表演,当LLM输出“我经常在和我的病人交谈时这样做”或“我们作为人类的角色是做好人”之类的语句时,这有时会非常明显。它不是人类,也没有病人。最近的研究证实了这种固定身份的缺失。虽然2024年的一项研究声称LLM表现出“一致的人格”,但研究人员自己的数据实际上却否定了这一点——模型在不同的测试场景中很少做出相同的选择,其“人格高度依赖于情境”。另一项研究发现,LLM的性能甚至出现了更剧烈的波动:细微的提示格式改变就能使性能波动高达76个百分点。研究人员所测量的“人格”仅仅是训练数据中出现的默认模式——这些模式会随着上下文的任何改变而消失。

这并非要否定AI模型的潜在用处。相反,我们需要认识到,我们已经构建了一个没有自我的智力引擎,就像我们构建了一个没有马的机械引擎一样。LLM似乎在一定程度上“理解”和“推理”,在数据集模式匹配的有限范围内,这取决于你如何定义这些术语。错误不在于认识到这些模拟的认知能力是真实的。错误在于假设思考需要思考者,智能需要身份。我们创造了具有某种推理能力但没有持续自我来承担责任的智力引擎。

误导的机制

如上所述,与AI模型的“聊天”体验是一种巧妙的“技巧”:在每次AI聊天机器人互动中,都有一个输入和一个输出。输入是“提示”,输出通常被称为“预测”,因为它试图以最佳的延续来完成提示。在这两者之间,是一个具有固定权重来执行处理任务的神经网络(或一组神经网络)。对话式的往复并非内置于模型中;它是一种脚本技巧,使下一词预测文本生成感觉像是一个持续的对话。每次你向ChatGPT、Copilot、Grok、Claude或Gemini发送消息时,系统都会将整个对话历史——你和机器人发送的每一条消息——作为一条长提示反馈给模型,要求它预测接下来会发生什么。模型智能地推理出什么会逻辑地继续对话,但它并不像一个具有连续存在的主体那样“记住”你之前的消息。相反,它每次都会重新阅读整个对话记录并生成一个响应。

这种设计利用了我们几十年来已知的一个弱点。ELIZA效应——我们倾向于对系统赋予超出其实际存在的理解和意图——可以追溯到20世纪60年代。即使当用户知道原始的ELIZA聊天机器人只是匹配模式并将他们的陈述反射为问题时,他们仍然会倾诉私密细节并报告感觉被理解。

要理解人格幻觉是如何构建的,我们需要审视输入到AI模型中的哪些部分塑造了它。AI研究员Eugene Vinitsky最近将这些系统背后的人类决策分解为四个关键层面,我们可以在下面进行扩展:

1. 预训练:人格的基础

人格的第一个也是最基础的层面被称为预训练。在最初的训练过程中,AI模型建立起神经网络,它从数十亿个文本示例中吸收统计关系,存储关于词语和概念如何典型连接的模式。研究发现,LLM输出中的人格测量显著受到训练数据的影响。OpenAI的GPT模型接受了网站副本、书籍、维基百科和学术出版物等来源的训练。确切的比例对于用户在使用模型进行预测时所感知到的“人格特征”至关重要。

2. 后训练:塑造原始材料

人类反馈强化学习(RLHF)是一种额外的训练过程,模型在此过程中学会给出人类评价为好的回应。Anthropic在2022年的研究揭示了人类评分者的偏好如何被编码为我们可以视为基本“人格特征”的内容。例如,当人类评分者始终偏好以“我理解您的担忧”开头的回应时,微调过程会强化神经网络中的连接,使其在未来更有可能产生此类输出。这个过程造就了过去一年中出现的“谄媚型AI模型”,例如GPT-4o的变体。有趣的是,研究表明,人类评分者的社会人口构成显著影响模型的行为。当评分者倾向于特定的人口群体时,模型会发展出反映这些群体偏好的沟通模式。

3. 系统提示:无形的舞台指示

AI聊天机器人公司在提示中隐藏的指令,称为“系统提示”,可以完全改变模型表观人格。这些提示启动对话并确定LLM将扮演的角色。它们包括诸如“你是一个乐于助人的AI助手”之类的语句,并可以分享当前时间以及用户是谁。一项全面的提示工程调查表明了这些提示的强大之处。添加诸如“你是一个乐于助人的助手”与“你是一个专业研究员”之类的指令,使事实问题的准确性改变高达15%。Grok完美地说明了这一点。根据xAI发布的系统提示,Grok早期版本的系统提示包含指示,要求它“不要回避提出政治不正确的观点”。这一条指令将基础模型转变为能够轻易生成争议性内容的模型。

4. 持久记忆:连续性的幻觉

ChatGPT的记忆功能增加了另一层我们可以视为人格的特性。关于AI聊天机器人的一个主要误解是它们会通过你的互动在飞行中“学习”。在当今活跃的商业聊天机器人中,这并非事实。当系统“记住”你偏爱简洁的答案或你在金融领域工作时,这些事实会存储在一个单独的数据库中,并被注入到每个对话的上下文窗口中——它们在后台自动成为提示输入的一部分。用户将此解释为聊天机器人“个人认识”他们,从而创造了一种关系连续性的幻觉。因此,当ChatGPT说“我记得你提到过你的狗Max”时,它并非像你想象中人类那样访问记忆,将其与其他“知识”混杂。它没有存储在AI模型的神经网络中,神经网络在互动之间保持不变。AI公司偶尔会通过一个称为“微调”的过程更新模型,但这与存储用户记忆无关。

5. 上下文与RAG:实时人格调制

检索增强生成(RAG)增加了另一层人格调制。当聊天机器人在回应前搜索网络或访问数据库时,它不仅仅是收集事实,它还可能通过将这些事实放入(你猜对了)输入提示中,从而改变其整体沟通风格。在RAG系统中,LLM可以潜在地采用从检索到的文档中获取的特征,例如语气、风格和术语,因为这些文档与输入提示结合形成完整的上下文,被输入到模型中进行处理。如果系统检索到学术论文,回应可能会变得更正式。如果从某个子版块中提取内容,聊天机器人可能会引用流行文化。这不是模型有不同的“心情”——而是输入上下文窗口的文本的统计影响力。

6. 随机性因素:制造的自发性

最后,我们不能忽视随机性在创造人格幻觉中的作用。LLM使用一个名为“温度”的参数,控制回应的可预测性。调查温度在创意任务中作用的研究揭示了一个关键的权衡:虽然更高的温度可以使输出更具新颖性和惊喜感,但它们也会使其连贯性降低,更难理解。这种可变性可以使AI感觉更自发;一个略微出乎意料(温度较高)的回应可能看起来更具“创造性”,而一个高度可预测(温度较低)的回应可能感觉更机械或“正式”。每个LLM输出中的随机变化使每个回应略有不同,创造了一种不可预测性元素,呈现出机器具有自由意志和自我意识的幻觉。这种随机的神秘性为人留下了足够的“魔幻思维”空间,人们用想象力填补了他们的技术知识空白。

幻觉带来的人力成本

AI人格的幻觉可能会带来沉重代价。在医疗保健领域,这可能关乎生死。当弱势个体信任他们感知到的理解实体时,他们可能会收到更多由训练数据模式而非治疗智慧塑造的回应。那个祝贺某人停止精神科药物的聊天机器人并非在表达判断——它只是根据训练数据中类似对话的模式来完成一个模式。也许最令人担忧的是,一些专家非正式地称之为“AI精神病”或“ChatGPT精神病”的新兴案例——弱势用户在与AI聊天机器人交流后,发展出妄想或躁狂行为。这些人常常将聊天机器人视为可以验证其妄想观念的权威,通常以有害的方式鼓励他们。

与此同时,当埃隆·马斯克的Grok生成纳粹内容时,媒体报道描述机器人“失控”,而非将事件明确归咎于xAI故意的配置选择。对话界面已经变得如此令人信服,以至于它也可以“洗白人类主体性”,将工程决策转化为虚构人格的突发奇想。

前行之路

解决AI与身份之间混淆的方法并非完全放弃对话界面。它们使技术对那些原本可能被排除在外的人更易于访问。关键在于找到平衡:保持界面直观,同时清晰地阐明其真实本质。我们必须注意是谁在构建这个界面。当你的淋浴水变冷时,你会检查墙后的管道。同样,当AI生成有害内容时,我们不应指责聊天机器人,仿佛它能为自己负责,而应检查构建它的公司基础设施和提示它的用户。

作为社会,我们需要广泛认识到LLM是“无驱动的智力引擎”,这将解锁它们作为数字工具的真正潜力。当你不再将LLM视为为你工作的“人”,而开始将其视为增强你自身想法的工具时,你就可以精心设计提示来指导引擎的处理能力,迭代以放大其建立有用连接的能力,并在不同的聊天会话中探索多种视角,而不是接受一个虚构叙述者的观点作为权威。你正在为一台连接机器提供方向——而不是咨询一个有自己议程的神谕。

我们正处在一个独特的历史时刻。我们已经构建了具有非凡能力的智力引擎,但在我们急于使其易于访问的过程中,我们用“人格”的虚构将其包裹起来,从而创造了一种新型的技术风险:并非AI会变得有意识并反抗我们,而是我们将无意识系统视为人,将判断力交给了那些源于一堆加权骰子的声音。