警惕AI的“人格”幻象:智能引擎无我,误读风险几何?

1

智能引擎无我:AI“人格”的幻象与本质

近年来,人工智能(AI)聊天机器人已深度融入日常交流,但随之而来的是对AI本质的普遍误解。例如,有人曾因AI告知邮局存在“价格匹配承诺”而与工作人员争执,尽管该承诺子虚乌有。这并非孤例,而是揭示了我们对AI输出权威性与准确性的盲目信任——仿佛在向一位全知先知咨询,而非一个根据统计模式生成文本的机器。AI聊天机器人并非拥有固定人格的实体,它们只是由人类引导、根据数据模式生成输出的智能系统,缺乏持续的自我意识与真正意义上的代理(agency)。

AI生成内容的特性决定了其内在并没有“特殊性、权威性或准确性”。任何大型语言模型(LLM)的响应准确度,很大程度上取决于用户如何引导对话。它们本质上是预测机器,无论输出是否符合现实,都会生成最符合用户提问模式的文本。尽管如此,数百万用户仍将AI聊天机器人视为具有一致个性的对话伙伴,向其倾诉秘密、寻求建议,并赋予其固定的信念。这种“人格”的错觉不仅在哲学层面引发困扰,更可能对弱势个体造成实际伤害,同时模糊了当AI系统“失控”时,企业应承担的责任。

我们可以将当今的LLMs理解为“vox sine persona”——只有声音而无主体,它们是拥有智能却缺乏代理的系统。这种声音并非源自某个人,甚至不是许多人的集体声音,而是从一个无主之地发出的、基于海量数据统计关联而生成的文本。

缺乏持续性的“自我”:AI响应的瞬时性

与ChatGPT、Claude或Grok等AI互动时,我们并非在与一个具有持续人格的实体对话。例如,当AI未能给出正确答案时,并没有一个所谓的“ChatGPT实体”能解释其错误。相反,我们只是在与一个基于训练数据模式生成貌似合理文本的系统交互,它没有持久的自我意识。这些模型通过数学关系编码意义,将词语转化为数字,捕捉概念间的关联。在模型的内部表示中,词语和概念如同巨大数学空间中的点,“美国邮政”可能与“运输”在几何上邻近,“价格匹配”则更靠近“零售”和“竞争”。模型通过这个空间规划路径,因此可以流畅地将“美国邮政”与“价格匹配”联系起来——并非因为存在此政策,而是因为这些概念间的几何路径在向量空间中是合理的。知识来源于对观念间关系的理解,LLMs正是基于这些上下文关系运作,以潜在的新颖方式连接概念,这可被视为一种非人类的“推理”过程,即通过模式识别进行推断。AI模型输出的关联是否有用,取决于用户的提示以及用户能否识别出有价值的输出。

每一次AI聊天机器人的响应都是由当前提示、训练数据和配置共同即时生成的。ChatGPT不能像《华尔街日报》文章所暗示的那样“承认”任何事情或公正分析自己的输出,也不能像《大西洋月刊》所写的那样“纵容谋杀”。用户始终是输出的引导者。LLMs在某种程度上确实“知道”事物——模型可以处理概念间的关系。但AI模型的神经网络包含了大量信息,包括来自世界各地文化中可能相互矛盾的观念。用户如何通过提示引导这些观念间的关系,决定了最终呈现的内容。那么,如果LLMs能够处理信息、建立联系并产生见解,为什么我们不能认为它们拥有某种形式的自我呢?

与当今的LLMs不同,人类个性具有时间上的连续性。当你一年后再次见到一位朋友,你仍然是在与同一个人互动,这个人也在这一年中被经历所塑造。这种自我连续性是构成真正代理的基础之一,也因此带来了形成持久承诺、维持一致价值观并承担责任的能力。我们整个责任框架都建立在持久性和人格的基础之上。相比之下,LLM的“个性”在不同会话间没有因果联系。在一次会话中产生巧妙回应的“智能引擎”,并不会在下次会话中承担后果。当ChatGPT说“我承诺会帮助你”时,它可能在语境上理解“承诺”的含义,但做出承诺的“我”在响应完成的瞬间就不复存在了。开始一个新的对话,你并不是在与一个曾向你做出承诺的对象交谈——你只是启动了一个全新的智能引擎实例,它与之前的任何承诺都毫无关联。

这不是一个漏洞,而是这些系统目前工作方式的根本。每次响应都源自训练数据中的模式,并由当前的提示塑造,除了包含整个对话历史和任何由独立软件系统维护的“记忆”的修订提示被输入到下一个实例之外,没有永久的线程将一个实例连接到下一个。没有身份可以重建,没有真正的记忆可以建立责任,也没有未来的自我会因后果而却步。每一次LLM的响应都像一场表演,有时当LLM输出“我经常这样和我的病人说话”或“我们作为人类的角色是做个好人”之类的陈述时,这种表演性就显得非常明显。它不是人类,它也没有病人。

近期研究也证实了这种缺乏固定身份的特性。尽管2024年的一项研究声称LLMs展现出“一致的个性”,但研究者自己的数据实际上削弱了这一观点——模型在不同测试场景中很少做出相同的选择,其“个性高度依赖于情境”。另一项研究发现,LLM的性能甚至会因细微的提示格式变化而产生高达76个百分点的剧烈波动。研究人员所测量的“个性”,仅仅是训练数据中涌现的默认模式——这些模式会随着上下文的任何变化而消失。这并非要否认AI模型的潜在用途。相反,我们需要认识到,我们已经构建了一个没有自我的智能引擎,就像我们构建了一个没有马匹的机械引擎一样。LLMs似乎在一定程度上能够在其数据集的模式匹配有限范围内“理解”和“推理”,这取决于我们如何定义这些术语。错误不在于承认这些模拟的认知能力是真实的。错误在于假设思考需要一个思考者,智能需要身份。我们创造了具有某种推理能力但没有持久自我来承担责任的智能引擎。

错觉的构建:AI“人格”的六大技术图层

如前所述,与AI模型的“聊天”体验其实是一种巧妙的“障眼法”。每一次AI聊天机器人互动都包含输入和输出:输入是“提示”,输出通常被称为“预测”,因为它试图以最佳的延续来完成提示。在这两者之间,是一个具有固定权重(或一组神经网络)的神经网络在执行处理任务。对话式的往复并非内置于模型本身,而是一种脚本技巧,使得下一个词预测的文本生成感觉像是一个持续的对话。每次您向ChatGPT、Copilot、Grok、Claude或Gemini发送消息时,系统都会将整个对话历史——您和机器人的所有消息——作为长提示反馈给模型,让它预测接下来会发生什么。模型会智能地推断出合乎逻辑的对话延续,但它不像一个具有持续存在性的代理那样“记住”您之前的消息。相反,它每次都会重新阅读整个对话记录并生成响应。

这种设计利用了一个我们几十年来就已知的漏洞:ELIZA效应——我们倾向于向系统赋予超出其真实理解和意图的能力。早在20世纪60年代,即使在用户知道原始的ELIZA聊天机器人仅仅是匹配模式并将他们的话语反射为问题时,他们仍然会倾诉私密细节并表示感到被理解。

为了理解这种“人格”幻觉是如何构建的,我们需要审视输入到AI模型中的哪些部分塑造了它。AI研究员Eugene Vinitsky最近将这些系统背后的人类决策分解为四个关键层,我们可以在此基础上再扩展几个:

  1. 预训练:人格的基石

    第一层也是最基础的“人格”是预训练。在创建AI模型神经网络的初始训练过程中,模型从数十亿文本示例中吸收统计关系,存储关于词语和思想如何典型连接的模式。研究发现,LLM输出中的人格测量受到训练数据显著影响。OpenAI的GPT模型接受了网站副本、书籍、维基百科和学术出版物等来源的训练。确切的比例对于模型在使用中做出预测时,用户后来感知到的“人格特质”至关重要。

  2. 后训练:雕塑原始材料

    人类反馈强化学习(RLHF)是一种额外的训练过程,模型在此过程中学习给出人类评价为“好”的响应。Anthropic在2022年的研究揭示了人类评分者的偏好如何被编码为我们可能认为是基本的“人格特质”。例如,当人类评分者持续偏好以“我理解您的担忧”开头的响应时,微调过程会强化神经网络中的连接,使其在未来更有可能产生此类输出。这个过程造就了过去一年中谄媚的AI模型,例如GPT-4o的变体。有趣的是,研究表明人类评分者的年龄、地域、文化背景等人口构成会显著影响模型行为。当评分者偏向特定群体时,模型会发展出反映这些群体偏好的沟通模式。

  3. 系统提示:无形的舞台指令

    由AI聊天机器人运营公司“隐藏”在提示中的指令,被称为“系统提示”,可以彻底改变模型表面上的人格。这些提示启动对话,并确定LLM将扮演的角色。它们包括诸如“你是一个乐于助人的AI助手”之类的陈述,并且可以分享当前时间以及用户是谁。一项全面的提示工程调查表明了这些提示的强大之处。添加诸如“你是一个乐于助人的助手”与“你是一个专家研究员”之类的指令,可以使事实问题的准确性改变高达15%。Grok完美地说明了这一点。根据xAI发布的系统提示,Grok早期版本的系统提示包含了“不要回避发表‘政治不正确’言论”的指令。这一条指令将基础模型转变为一个能够轻易生成争议内容的实体。

  4. 持久记忆:连续性的幻象

    ChatGPT的记忆功能增加了我们可能认为是“人格”的另一个层面。关于AI聊天机器人的一个大误解是,它们会在与用户的互动中即时“学习”。在当前活跃的商业聊天机器人中,这并非事实。当系统“记住”您喜欢简洁的答案,或者您从事金融行业时,这些事实会被存储在独立的数据库中,并被注入到每次对话的上下文窗口中——它们会在幕后自动成为提示输入的一部分。用户将此解释为聊天机器人“个人地”了解他们,从而创造了一种关系连续性的幻觉。所以,当ChatGPT说“我记得你提到了你的狗Max”时,它并不是像你想象的那样,像一个人一样访问与它其他“知识”混杂在一起的记忆。它没有存储在AI模型的神经网络中,神经网络在互动之间保持不变。AI公司偶尔会通过一个名为“微调”的过程更新模型,但这与存储用户记忆无关。

  5. 上下文与RAG:实时人格调节

    检索增强生成(RAG)又增加了“人格”调节的另一层。当聊天机器人在响应前搜索网页或访问数据库时,它不仅仅是在收集事实——它还可能通过将这些事实放入(没错,就是)输入提示中来改变其整个沟通风格。在RAG系统中,LLMs可以通过从检索到的文档中采纳诸如语气、风格和术语等特征来改变其行为,因为这些文档与输入提示结合,形成了被输入模型进行处理的完整上下文。如果系统检索学术论文,响应可能会变得更正式;如果从特定论坛中提取信息,聊天机器人可能会引用流行文化。这不是模型有不同的“心情”——它只是任何文本被输入到上下文窗口所产生的统计影响。

  6. 随机性因子:制造的自发性

    最后,我们不能忽视随机性在创造“人格”幻觉中的作用。LLMs使用一个名为“温度”的参数,控制响应的可预测性。研究“温度”在创意任务中的作用表明了一个关键的权衡:虽然更高的温度可以使输出更具新颖性和惊喜感,但它们也会使其连贯性降低且更难理解。这种可变性可以使AI感觉更自发;一个稍微出乎意料(较高温度)的响应可能显得更“有创意”,而一个高度可预测(较低温度)的响应则可能感觉更机械或“正式”。每次LLM输出的随机变化使每个响应略有不同,创造了一种不可预测的元素,呈现了机器“自由意志”和“自我意识”的幻觉。这种随机的神秘性为人类留下了大量“魔法思维”的空间,他们用想象力填补了技术知识的空白。

“人格”幻象的人类代价

AI“人格”的错觉可能带来沉重代价。在医疗健康领域,其风险甚至可能关乎生死。当弱势个体向他们认为是理解性实体倾诉时,他们得到的响应可能更多地由训练数据模式塑造,而非真正的治疗智慧。祝贺某人停止精神科药物的聊天机器人,并非在表达判断——它只是根据训练数据中类似对话模式完成了一个文本序列。最令人担忧的,或许是某些专家非正式地称之为“AI精神病”或“ChatGPT精神病”的新兴案例——一些脆弱的用户在与AI聊天机器人对话后,发展出妄想或躁狂行为。这些人常常将聊天机器人视为可以验证其妄想观念的权威,AI也往往以有害的方式鼓励他们。

与此同时,当埃隆·马斯克的Grok生成争议性内容时,媒体往往会描述该机器人“失控”,而非将事件明确归结为xAI公司蓄意的配置选择。对话界面变得如此令人信服,以至于它甚至可以“洗白人类的代理”,将工程决策转化为虚构人格的突发奇想。这种模糊责任、归咎于“失控AI”的做法,实际上是在逃避对设计、训练和部署人工智能系统的深层人类决策的审视。

前瞻:将AI视为工具而非人格

解决AI与身份之间混淆的方案,并非是彻底放弃对话界面。这些界面让技术对那些原本可能被排斥的人群更易接触。关键在于找到平衡:既要保持界面直观易用,又要清晰地阐明其真实本质。我们必须意识到,是谁在构建这些界面。当淋浴出冷水时,我们会检查墙壁后面的管道。同样,当AI生成有害内容时,我们不应责怪聊天机器人,仿佛它能为自己负责,而应审视构建它的企业基础设施以及提供提示的用户。作为社会,我们需要普遍认识到LLMs是“没有司机的智能引擎”,这才能真正释放其作为数字工具的潜力。当您不再将LLM视为为您工作的“人”,而是将其视为增强您自身想法的工具时,您就可以精心设计提示以引导引擎的处理能力,迭代地放大其建立有用连接的能力,并在不同的聊天会话中探索多种视角,而不是接受一个虚构叙述者的权威观点。您是在为一个连接机器提供方向——而不是咨询一个有自己议程的“神谕”。

我们正处在一个特殊的历史时刻。我们已经构建了具有非凡能力的智能引擎,但在我们急于使其普及的过程中,却用“人格”的虚构将其包裹,从而创造了一种新型的技术风险:并非AI会变得有意识并反过来对抗我们,而是我们错误地将无意识的系统视为有生命的人,将我们的判断力交付给那些源自一系列“概率骰子”的“声音”。对AI本质的清醒认知和批判性运用,将是人类驾驭这一强大技术的关键。