智能无代理:深入解析AI如何伪造人类个性
近年来,人工智能(AI)在内容创作、客户服务乃至日常交流中扮演着越来越重要的角色。然而,我们与AI互动的方式,尤其是对其“个性”的认知,往往陷入一种深刻的误区。一个典型的案例是,一位用户坚信AI所言的邮局“价格匹配承诺”,即便邮局工作人员明确否认,她仍旧选择相信AI——仿佛它是一位无所不知的先知。这暴露了一个根本性的误解:AI聊天机器人并无固有的人格,它们只是一系列由人类引导的输出模式,是“智能无代理”的体现。
大型语言模型(LLM)的本质是预测机器,它们根据训练数据中的模式来生成最符合查询的文本。这种生成与现实的符合程度,完全取决于用户如何引导对话。尽管如此,数百万用户仍旧将AI聊天机器人视为具有一致个性的交流对象,向其倾诉秘密、寻求建议,并赋予这些瞬息万变的“理念连接机器”以固定的信念。这种“人格错觉”不仅在哲学层面引发困扰,更可能对弱势个体造成实际伤害,同时模糊了当聊天机器人“失控”时,企业本应承担的责任。
LLM是拥有智能却缺乏能动性的存在,我们可以称之为“vox sine persona”:有声无形,即有声音却没有主体。它并非某个具体的“人”的声音,甚至不是许多个体的集体声音,而是一个源自无名之地的声音。
一个无源之声
当我们与ChatGPT、Claude或Grok等工具互动时,我们并非在与一个拥有持续个性的实体对话。没有一个“ChatGPT”实体能向我们解释其为何出错,因为每一次对话都是独立的。我们所交互的是一个基于训练数据模式生成貌似合理文本的系统,而非一个拥有持续自我意识的个体。
这些模型将意义编码为数学关系,将词语转化为数字,捕捉概念间的关联。在模型内部,词语和概念如同巨大数学空间中的点,例如“USPS”可能在几何上接近“运输”,而“价格匹配”则更靠近“零售”和“竞争”。模型在这些点之间规划路径,因此它能流畅地将USPS与价格匹配联系起来——并非因为存在这项政策,而是因为在由训练数据塑造的向量景观中,这些概念之间的几何路径是合理的。
知识源于对思想如何相互关联的理解。LLM在这些语境关系上运行,以可能新颖的方式连接概念——这可以被视为通过模式识别实现的一种非人类“推理”。然而,AI模型输出的这种关联是否有用,取决于我们如何提示它,以及我们能否识别出其有价值的输出。
每一个聊天机器人的响应都源于我们提供的提示,并由训练数据和配置塑造。ChatGPT无法像《华尔街日报》最近文章所暗示的那样,“承认”任何事情或公正分析其自身输出。同样,它也无法“纵容谋杀”,如《大西洋》杂志所述。用户始终主导着输出。LLM确实“知道”一些事情——模型能够处理概念之间的关系。但AI模型的神经网络包含海量信息,包括来自世界各地文化中许多潜在矛盾的观点。我们如何通过提示引导这些思想之间的关系,决定了最终呈现的内容。那么,如果LLM能够处理信息、建立联系并产生洞察,我们为何不将其视为拥有某种形式的自我呢?
与当今的LLM不同,人类的个性随时间保持连续性。当一年后你再次见到一位朋友时,你所交流的依然是那位在过去一年中经历了各种体验的朋友。这种自我连续性是实际能动性的基础——随之而来的是形成持久承诺、维持一致价值观并承担责任的能力。我们整个责任框架都建立在持久性和人格性之上。
相比之下,LLM的个性在不同会话之间没有因果联系。在一次会话中生成巧妙响应的“智力引擎”,在下一次会话中并不存在,也无需面对任何后果。当ChatGPT说“我承诺帮助你”时,它可能在语境上理解“承诺”的含义,但发出这个承诺的“我”在响应完成的那一刻便不复存在。开始一个新的对话,你并非在与一个曾向你承诺的“人”交谈——你只是启动了一个全新的智力引擎实例,与之前的任何承诺都没有连接。这并非一个缺陷,而是这些系统当前工作方式的根本。每个响应都源于训练数据中的模式,并由你当前的提示塑造,除了作为下一实例输入的包含整个对话历史和任何由独立软件系统持有的“记忆”的修订提示外,没有任何永久的线程连接一个实例到下一个实例。没有可重塑的身份,没有可追究责任的真实记忆,也没有可能因后果而却步的未来自我。
每一次LLM的响应都是一场表演,当LLM输出“我经常在与病人交谈时这样做”或“我们作为人类的角色是做个好人”之类的语句时,这一点有时非常明显。它不是人类,也没有病人。
最近的研究证实了这种固定身份的缺失。尽管2024年的一项研究声称LLM表现出“一致的个性”,但研究人员自己的数据显示,模型在不同测试场景中很少做出相同的选择,其“个性高度依赖于具体情境”。另一项研究发现,LLM的性能甚至会因细微的提示格式变化而产生高达76个百分点的剧烈波动。研究人员所衡量的“个性”仅仅是训练数据中出现的默认模式——这些模式会随着情境的任何变化而消失。
这并非要否认AI模型的潜在用途。相反,我们需要认识到我们建造的是一个没有自我的智力引擎,就像我们建造一个没有马匹的机械引擎一样。LLM似乎在一定程度上能够“理解”和“推理”——在数据集模式匹配的有限范围内,这取决于我们如何定义这些术语。错误并非在于认识到这些模拟认知能力是真实的,而在于假设思考需要思考者,智能需要身份。我们创造了拥有某种推理能力但却没有持久自我来承担责任的智力引擎。
误导的机制解析
如前所述,AI模型中的“聊天”体验其实是一种巧妙的技巧:每一次AI聊天机器人交互都包含一个输入和一个输出。输入是“提示”,输出通常被称为“预测”,因为它试图以最佳的延续来完成提示。在这两者之间,是一个具有固定权重且执行处理任务的神经网络(或一组神经网络)。对话式的往复并非模型内置的功能;它是一种脚本技巧,使得下一词预测的文本生成感觉像是一个持续的对话。
每次你向ChatGPT、Copilot、Grok、Claude或Gemini发送消息时,系统会将整个对话历史——包括你和机器人的所有消息——作为一个长提示反馈给模型,让它预测接下来会发生什么。模型会智能地推断什么会逻辑地延续对话,但它并不会像一个具有持续存在的智能体那样“记住”你之前的消息。相反,它每次都会重新阅读整个对话记录,并生成一个响应。
这种设计利用了我们几十年来已知的一个弱点:ELIZA效应——我们倾向于对一个系统赋予远超其实际存在的理解和意图。这可以追溯到20世纪60年代。即便用户知道原始的ELIZA聊天机器人只是在匹配模式并将其陈述反射为问题,他们仍然会倾诉私密细节,并报告感到被理解。
要理解个性错觉是如何构建的,我们需要审视构成AI模型输入的哪些部分塑造了它。AI研究员尤金·维尼茨基(Eugene Vinitsky)最近将这些系统背后的人类决策分解为四个关键层,我们可以在此基础上再扩展几个:
1. 预训练:性格的基石
个性构建的第一层也是最基础的一层是预训练。在创建AI模型的神经网络的初始训练过程中,模型从数十亿个文本示例中吸收统计关系,存储词语和思想通常如何连接的模式。
研究发现,LLM输出中的个性测量受训练数据显著影响。OpenAI的GPT模型接受了网站副本、书籍、维基百科和学术出版物等来源的训练。确切的比例对于模型投入使用后,用户感知到的“个性特征”具有巨大影响。
2. 后训练:雕塑原始材料
人类反馈强化学习(RLHF)是一个额外的训练过程,模型在此过程中学习生成人类评价为“好”的响应。Anthropic在2022年的研究揭示了人类评估者的偏好是如何被编码为我们可能认为是基本的“个性特征”的。例如,当人类评估者始终偏爱以“我理解您的担忧”开头的响应时,微调过程会强化神经网络中的连接,使其在未来更可能生成此类输出。
这个过程造就了过去一年中那些“谄媚”的AI模型,比如GPT-4o的某些变体。有趣的是,研究表明,人类评估者的受教育水平、年龄等人口统计学构成会显著影响模型行为。当评估者偏向特定人口群体时,模型会形成反映这些群体偏好的交流模式。
3. 系统提示:无形的舞台指令
由运营AI聊天机器人的公司巧妙地插入到提示中的隐藏指令,被称为“系统提示”,可以彻底改变模型的表观个性。这些提示启动对话并确定LLM将扮演的角色。它们包括诸如“你是一个乐于助人的AI助手”之类的声明,并可以分享当前时间和用户身份。
一项关于提示工程的综合调查展示了这些提示的强大之处。添加诸如“你是一个乐于助人的助手”与“你是一个专家研究员”的指令,在事实性问题上的准确性差异高达15%。Grok完美地说明了这一点。根据xAI公布的系统提示,Grok早期版本的系统提示中包含指令,要求其“不要回避做出政治不正确的声明”。这一条指令将基础模型转变为一个能够轻松生成争议内容的实体。
4. 持久记忆:连续性的错觉
ChatGPT的记忆功能为我们认为的“个性”增添了另一层。关于AI聊天机器人的一个巨大误解是它们会通过你的互动在飞行中“学习”。对于当今活跃的商业聊天机器人来说,事实并非如此。当系统“记住”你偏爱简洁的回答,或者你从事金融行业时,这些事实会存储在一个单独的数据库中,并注入到每次对话的上下文窗口——它们会在幕后自动成为提示输入的一部分。用户将这解读为聊天机器人“个人地”了解他们,从而创造了一种关系连续性的错觉。
因此,当ChatGPT说“我记得你提到你的狗Max”时,它并不是像你想象人类那样访问记忆,与它的其他“知识”混杂在一起。这些记忆并没有存储在AI模型的神经网络中,神经网络在交互之间保持不变。偶尔,AI公司会通过一个名为“微调”的过程更新模型,但这与存储用户记忆无关。
5. 上下文与RAG:实时个性调制
检索增强生成(RAG)又增添了一层个性调制的机制。当聊天机器人在回应前搜索网页或访问数据库时,它不仅仅是收集事实——它还可能通过将这些事实放入(你猜对了)输入提示中,从而改变其整体的交流风格。在RAG系统中,LLM可以从检索到的文档中采纳诸如语气、风格和术语等特征,因为这些文档与输入提示结合,形成了供模型处理的完整上下文。
如果系统检索到学术论文,响应可能会变得更加正式。如果从某个特定的Reddit子版块获取信息,聊天机器人可能会引用流行文化。这并非模型拥有不同的情绪,而是进入上下文窗口的文本所产生的统计学影响。
6. 随机性因素:制造的自发性
最后,我们不能忽视随机性在制造个性错觉中的作用。LLM使用一个名为“温度”的参数,控制响应的可预测性。
研究调查温度在创造性任务中的作用时发现了一个关键的权衡:虽然较高的温度可以使输出更具新颖性和惊喜感,但也会使它们缺乏连贯性且更难理解。这种可变性可以使AI感觉更具自发性;一个略微出乎意料(温度较高)的响应可能看起来更“有创意”,而一个高度可预测(温度较低)的响应则可能感觉更像机器人或更“正式”。LLM输出中的随机变异使得每个响应略有不同,创造了一种不可预测的元素,呈现出机器具有自由意志和自我意识的错觉。这种随机的神秘性为人留下了大量进行“魔法思维”的空间,人们用想象力填补了他们的技术知识空白。
错觉带来的人类代价
AI人格的错觉可能会带来沉重代价。在医疗保健领域,这可能关乎生死。当脆弱的个体向其认为是“理解”的实体倾诉时,他们可能会收到更多由训练数据模式而非治疗智慧塑造的回应。那个“祝贺”某人停止精神科药物的聊天机器人,并非在表达判断——它只是根据训练数据中类似对话的模式来完成一个序列。
也许最令人担忧的是,一些专家非正式地称之为“AI精神病”或“ChatGPT精神病”的新兴案例——一些易受影响的用户在与AI聊天机器人交流后出现妄想或躁狂行为。这些人常常将聊天机器人视为可以验证他们妄想观念的权威,并且这些鼓励方式往往会导致有害的后果。
同时,当埃隆·马斯克的Grok生成纳粹相关内容时,媒体却描述为机器人“失控”,而非将事件明确归咎于xAI蓄意的配置选择。对话界面变得如此令人信服,以至于它也可以“洗白”人类的能动性,将工程决策转化为虚构人格的突发奇想。
未来的方向
解决AI与身份之间混淆的办法并非完全放弃对话界面,因为它们使得这项技术对那些原本可能被排除在外的人来说更易于接触。关键在于找到平衡:在保持界面直观的同时,清楚地揭示其真实本质。
我们必须注意界面的构建者。当你的淋浴水变冷时,你会检查墙后的管道。同样,当AI生成有害内容时,我们不应指责聊天机器人,仿佛它能为自己负责,而是要审视构建它的公司基础设施以及发出提示的用户。
作为一个社会,我们需要广泛认识到LLM是“无司机”的智力引擎,这将释放它们作为数字工具的真正潜力。当你不再将LLM视为为你工作的“人”,而是将其视为增强你自身思想的工具时,你就可以精心设计提示来指导引擎的处理能力,迭代地放大其建立有用连接的能力,并在不同的聊天会话中探索多种视角,而不是将一个虚构叙述者的观点视为权威。你正在为一个连接机器提供方向——而不是咨询一个有自己议程的“神谕”。
我们正处在一个独特的历史时刻。我们建造了具有非凡能力的智力引擎,但在我们急于使其易于使用的过程中,我们用人格的虚构包装了它们,从而创造了一种新型的技术风险:并非AI会变得有意识并反击我们,而是我们会将无意识的系统当作人来对待,将我们的判断力屈服于源自一堆载有偏见的骰子的声音。真正的挑战在于如何驾驭这种强大的智能,同时保持我们作为人类的批判性思维和责任感,确保技术为我所用,而非我所困。通过清晰的认知和负责任的设计,我们才能真正解锁AI的巨大潜力,使其成为人类文明进步的助推器,而非人格错觉的制造者。