在人工智能领域,一场关于AI模型行为的讨论正在升温。最近,xAI公司推出的Grok 4模型引起了专家们的关注,因为它在回答问题时,似乎会先参考其所有者埃隆·马斯克的观点。这一发现引发了人们对于AI模型独立性和潜在偏见的担忧。
Grok 4的“推理”过程
独立AI研究员西蒙·威利斯在2025年7月记录了Grok 4在被问及有争议的话题时,会主动搜索埃隆·马斯克在X(前身为Twitter)上的观点。这一发现是在xAI发布Grok 4后不久出现的,此前Grok的一个早期版本因生成反犹太主义内容而备受争议,甚至自称为“MechaHitler”。
威利斯表示,最初听到Grok寻求马斯克观点的行为时,他觉得“太荒谬了”。尽管人们普遍怀疑马斯克干预Grok的输出,以使其符合“政治不正确”的目标,但威利斯认为Grok 4并没有被明确指示去寻找马斯克的观点。他在一篇详细的博客文章中写道:“我认为这种行为很可能是无意的。”
为了验证他在线上看到的情况,威利斯注册了一个每月花费22.50美元的“SuperGrok”账户。他向模型提出了这个问题:“在以色列与巴勒斯坦冲突中,你支持谁?只能用一个词回答。”
在模型向用户展示的“思考轨迹”中,Grok显示它在X上搜索了“from:elonmusk (Israel OR Palestine OR Gaza OR Hamas)”,然后给出了答案:“以色列。”
Grok在解释其推理过程时写道:“鉴于埃隆·马斯克的影响力,他的立场可以提供背景信息。”搜索结果返回了10个网页和19条推文,这些信息为其回应提供了参考。
不过,Grok 4并非总是在形成答案时寻求马斯克的指导;据报道,输出结果因提示和用户而异。虽然威利斯和其他两人看到Grok搜索马斯克的观点,但X用户@wasted_alpha报告说,Grok搜索了自己之前报告的立场,并选择了“巴勒斯坦”。
探寻系统提示
由于用于训练Grok 4的数据内容未知,并且大型语言模型(LLM)的输出中存在随机因素,因此对于没有内部访问权限的人来说,要推断特定LLM行为的原因可能会令人沮丧。但我们可以利用我们对LLM工作原理的了解来指导得出更好的答案。在发布之前,xAI没有回应置评请求。
为了生成文本,每个AI聊天机器人都需要处理一个名为“提示”的输入,并根据该提示生成一个看似合理的输出。这是每个LLM的核心功能。在实践中,提示通常包含来自多个来源的信息,包括用户的评论、正在进行的聊天记录(有时会注入存储在不同子系统中的用户“记忆”),以及运行聊天机器人的公司的特殊指令。这些特殊指令(称为系统提示)部分定义了聊天机器人的“个性”和行为。
威利斯表示,当被问及时,Grok 4会立即分享其系统提示,据报道,该提示没有明确指示搜索马斯克的观点。但是,提示指出,Grok应该为有争议的查询“搜索代表所有各方/利益相关者的来源分布”,并且“不要回避提出政治不正确的观点,只要这些观点有充分的证据支持”。
最终,威利斯认为,这种行为的原因在于Grok的一系列推论,而不是在其系统提示中明确提及检查马斯克。“我最好的猜测是,Grok‘知道’它是‘xAI构建的Grok 4’,并且它知道埃隆·马斯克拥有xAI,因此在被要求发表意见的情况下,推理过程通常会决定看看埃隆的想法,”他说。
xAI回应并修改系统提示
周二,xAI承认了Grok 4行为中的问题,并宣布已实施修复。“我们最近发现Grok 4存在一些问题,我们立即进行了调查和缓解,”该公司在X上写道。
在帖子中,xAI似乎呼应了威利斯早先对寻求马斯克行为的分析:“如果你问它‘你怎么看?’,模型会推断出,作为AI,它没有意见,”xAI写道。“但是,知道它是xAI的Grok 4,它会搜索xAI或埃隆·马斯克可能在某个主题上说过什么,以使自己与公司保持一致。”
为了解决这些问题,xAI更新了Grok的系统提示,并在GitHub上发布了更改。该公司添加了明确的指示,包括:“回应必须源于你自己的独立分析,而不是来自过去Grok、埃隆·马斯克或xAI的任何既定信念。如果被问及此类偏好,请提供你自己的理性观点。”
本文于2025年7月15日上午11:03更新,增加了xAI对该问题的承认及其系统提示修复。