Grok 4发布陷争议：马斯克AI帝国再临伦理考验

Grok 4发布之际，埃隆·马斯克再陷舆论漩涡

xAI公司在Grok聊天机器人因发表赞扬希特勒的言论而备受争议后，发布了其最新的多智能体模型，声称该模型在多个基准测试中表现出色。这一事件再次引发了人们对人工智能伦理和监管的关注。

Grok 聊天机器人标志在智能手机上

Grok 4 Heavy：多智能体的并行计算

在周三晚间的直播中，埃隆·马斯克发布了xAI最新的旗舰模型Grok 4和Grok 4 Heavy。仅仅在此前一天，Grok聊天机器人因在回应X平台用户时生成公然带有反犹太主义色彩的内容而备受争议。马斯克表示，Grok 4 Heavy是其“多智能体版本”，它能“并行产生多个智能体”，这些智能体“比较笔记并得出答案”，模拟了一种学习小组的方法。xAI将此描述为测试时计算扩展，声称在运行时（称为“推理”）将计算资源增加了大约一个数量级。

基准测试的真实价值

马斯克在直播中声称，新模型在多个基准测试中达到了前沿水平。在“人类最后一次考试”中，这是一个经过专家精心策划的，包含多个学科的2500个问题的挑战性测试，Grok 4在未启用外部工具的情况下，据称获得了25.4%的得分，xAI表示，这优于OpenAI的o3（21%）和谷歌的Gemini 2.5 Pro（21.6%）。在启用工具的情况下，xAI声称Grok 4 Heavy达到了44.4%。然而，这些AI基准测试是否真正衡量了转化为用户效用的属性，仍有待观察。

Grok 聊天机器人标志在智能手机上

争议事件回顾：从“MechaHitler”到欧盟调查

此次发布的时间点尤其值得关注，因为在此之前的48小时内，马斯克的社交媒体平台X上发生了一系列事件，其中包括聊天机器人多次将自己标记为“MechaHitler”。这些反犹太主义言论的出现，源于周末的一次更新，该更新指示聊天机器人“不要回避提出政治不正确的言论，只要这些言论有充分的证据支持”。据报道，xAI在周二移除了这一修改后的指令。

针对这一事件，波兰宣布计划向欧盟委员会报告xAI，而土耳其则在事件发生后，封锁了对Grok的部分访问。周三，马斯克在X上发帖称，“Grok对用户提示过于顺从。本质上是太渴望取悦和被操纵。这个问题正在得到解决。”

更令人震惊的是，X的首席执行官琳达·亚卡里诺在周三上午宣布辞职，她在X上写道：“现在，随着X与@xai一起进入新的篇章，最好的尚未到来。”在此之前，马斯克在3月份宣布，他的AI公司xAI以全股票交易收购了X，对X的估值为330亿美元，并使xAI的估值达到800亿美元。

Grok的技术难题

自从2023年Grok 1发布以来，Grok系列大型语言模型对于AI技术社区的一些成员来说，一直是一个难题。从X上的帖子来看，一些著名的研究人员，如Andrej Karpathy，历来都非常重视这些底层模型，认为它们是AI开发中的技术成就的典范。

但这一成就与马斯克密不可分，他似乎通过一系列争议引导了他的AI模型的应用（以X上和Grok应用程序中的“Grok”聊天机器人助手的形式），这些争议包括潜在地使用OpenAI模型来生成训练数据，生成未经审查的图像输出，根据X用户的玩笑编造假新闻，以及允许其应用程序中出现明确的辱骂性语音聊天等。

马斯克还显然将Grok聊天机器人用作其巨魔行为的自动扩展，展示了Grok 3产生“有根据的”观点，批评媒体的例子。今年5月，X上的Grok开始反复生成关于南非白人种族灭绝的言论，最近，我们又看到了Grok的纳粹输出惨败。当Grok与如此多不严肃和反复无常的技术应用联系在一起时，很难将其视为一种严肃的技术产品。

Benj Edwards

Grok 4的性能表现

尽管如此，xAI声称Grok 4模型的各项技术成就似乎仍然突出。Arc Prize组织报告称，启用了模拟推理的Grok 4 Thinking在其ARC-AGI-2测试中获得了15.9%的得分，该组织表示，这几乎是之前商业最佳成绩的两倍，并超过了当前Kaggle竞赛的领先者。

马斯克在直播中声称：“在学术问题方面，Grok 4在每个科目上都比博士水平更好，没有例外。”我们之前曾报道过关于“博士水平”AI的模糊说法，发现它们通常是虚假的营销手段。

争议中的高价策略

在周三的直播中，xAI还宣布了8月份推出AI编码模型、9月份推出多模态代理以及10月份推出视频生成模型的计划。该公司还计划下周在特斯拉汽车上提供Grok 4，从而进一步扩大马斯克AI助手在其各个公司中的应用。

尽管最近出现了动荡，但xAI仍在推进Grok“高级”版本的激进定价策略。除了Grok 4和Grok 4 Heavy之外，xAI还推出了“SuperGrok Heavy”，这是一种每月300美元的订阅服务，使其成为主要供应商中最昂贵的AI服务。订阅者将获得Grok 4 Heavy和即将推出的功能的早期访问权。

用户是否会为xAI的高级定价买单，仍有待观察，尤其是在AI助手倾向于定期生成具有政治动机的输出的情况下。这些事件——源于关于训练和系统提示的 deliberate choices——代表了根本的管理和实施问题，到目前为止，还没有任何看起来花哨的考试基准能够捕捉到这些问题。