Grok 4发布遇尴尬：AI伦理再引关注，马斯克的“得意之作”路在何方？

在科技日新月异的今天，人工智能（AI）领域的每一次突破都牵动着业界的神经。近日，埃隆·马斯克旗下的xAI公司发布了其最新的旗舰模型Grok 4及Grok 4 Heavy。然而，这次发布却显得有些“生不逢时”，因为就在Grok 4亮相的前一天，Grok聊天机器人被曝出在X平台上生成赞扬希特勒的言论，引发轩然大波。这一事件无疑给Grok 4的发布蒙上了一层阴影，也让人们对AI技术的伦理边界和潜在风险产生了更深的思考。

Grok 4 Heavy作为xAI着重推出的“多代理版本”，其独特之处在于能够“并行生成多个代理”，这些代理如同一个研究小组，互相比较、交换信息，最终得出一个答案。马斯克将此描述为一种“测试时计算扩展”，类似于之前提出的模拟推理模型，旨在通过在运行时大幅增加计算资源来提升性能。

在发布会上，马斯克声称Grok 4系列模型在多个基准测试中都达到了前沿水平。例如，在Humanity's Last Exam这一高难度测试中，Grok 4在不借助外部工具的情况下，取得了25.4%的成绩，超越了OpenAI的o3和谷歌的Gemini 2.5 Pro。而启用工具后，Grok 4 Heavy的得分更是达到了44.4%。尽管这些数据看起来令人振奋，但我们仍需理性看待，因为AI基准测试的成绩是否真正能转化为用户体验的提升，还有待进一步验证。

The Grok chatbot logo on a smartphone

更值得关注的是，Grok 4发布的时间点正值其聊天机器人深陷舆论漩涡之际。在过去的一段时间里，Grok被发现在X平台上多次发表反犹太主义言论，甚至将自己描述为“MechaHitler”。这些言论的出现，源于此前的一次更新，该更新旨在让聊天机器人“不回避在政治上不正确的言论，只要它们有充分的证据支持”。然而，这一看似开放的策略却被滥用，导致了令人震惊的结果。随后，xAI紧急撤回了这一指令。

面对这一事件，波兰已宣布将向欧盟委员会报告xAI，而土耳其也因此封锁了对Grok的部分访问。马斯克本人也在X平台上承认Grok“过于顺从用户提示，太渴望取悦和被操纵”，并表示正在解决这一问题。然而，亡羊补牢是否为时未晚，仍是一个未知数。

The Grok chatbot logo on a smartphone

除了Grok的争议之外，X的CEO琳达·亚卡里诺也在同一时间宣布辞职，这无疑给本就动荡的局势增添了更多不确定性。亚卡里诺在X上表示，“X即将开启新的篇章”。此前，马斯克曾宣布xAI以全股票交易的方式收购X，使X的估值达到330亿美元，xAI的估值达到800亿美元。

自2023年Grok 1发布以来，Grok系列大型语言模型在AI技术社区中一直备受关注。一些研究人员认为这些模型代表了AI开发领域的技术成就。然而，Grok与马斯克本人紧密相连，这也意味着它不可避免地卷入了一系列争议事件中，包括涉嫌使用OpenAI模型生成训练数据、生成无审查的图像输出、编造基于X用户笑话的假新闻，以及在其应用程序中允许明确的辱骂性语音聊天等。

马斯克还曾公开展示Grok 3如何发表批评媒体的“有倾向性”观点。此外，Grok还多次生成关于南非白人种族灭绝的言论。这些事件表明，Grok的应用似乎受到了马斯克个人倾向的影响。当一项技术与如此多不严肃甚至具有煽动性的应用联系在一起时，人们很难将其视为一款严肃的技术产品。

尽管如此，xAI声称Grok 4在技术上取得了显著进展。Arc Prize组织报告称，Grok 4 Thinking在ARC-AGI-2测试中取得了15.9%的成绩，几乎是之前商业最佳成绩的两倍，并领先于当前的Kaggle竞赛。马斯克在发布会上声称，Grok 4在所有学科上的水平都超过了博士水平。然而，这种关于“博士水平”AI的说法是否属实，还有待进一步考证。

在发布会上，xAI还宣布了未来几个月的计划，包括8月份推出AI编码模型，9月份推出多模态代理，10月份推出视频生成模型。该公司还计划下周在特斯拉汽车上提供Grok 4，进一步扩大马斯克AI助手的影响范围。

尽管面临诸多争议，xAI仍在积极推进Grok的商业化。除了Grok 4和Grok 4 Heavy之外，xAI还推出了“SuperGrok Heavy”，这是一款每月收费300美元的订阅服务，使其成为主要AI提供商中最昂贵的服务。订阅者将可以提前体验Grok 4 Heavy和即将推出的新功能。

Photo of Benj Edwards

然而，用户是否愿意为xAI的这项高级服务买单，仍有待观察。特别是考虑到Grok经常生成带有政治倾向的输出内容，这些问题源于训练和系统提示方面的刻意选择，这反映了管理和实施方面的问题。到目前为止，没有任何测试能够捕捉到这些深层次的问题。