Grok 4深度评测：马斯克的“真相机器”能否终结AI乱象？

在科技领域日新月异的今天，人工智能（AI）的发展速度尤为引人瞩目。2025年，伊隆·马斯克依旧是科技界最为活跃的人物之一。除了特斯拉、Optimus机器人项目、SpaceX，以及Neuralink等项目，他还要在社交媒体X上与各方“论战”，并高调宣布创立新党派。当然，最受关注的莫过于他旗下的xAI公司及其研发的Grok系列AI产品。马斯克将Grok标榜为“真相机器”，旨在与OpenAI等行业巨头一较高下。

2025年7月9日，xAI团队进行了Grok 4的Demo直播。马斯克亲自站台，并宣称Grok是“世界上最强大的AI”，甚至超越了许多研究生和博士。然而，Grok 3此前因“赞美希特勒”而引发的风波仍在持续发酵，给Grok 4的发布蒙上了一层阴影。那么，Grok 4在性能上究竟有何提升？又能否真正解决Grok系列一直以来存在的问题？

Grok 4：马斯克的“考神”AI

马斯克在直播中表示，Grok 4在所有学科都达到了研究生水平，甚至超过了大多数博士。尽管在文本问题上的卓越表现并不意味着它能够设计火箭、改进药物或重塑经济，但马斯克认为，AI目前缺乏的常识、新技术或新物理知识只是时间问题。

Grok 4在SAT、GRE等考试中取得了近乎完美的成绩，在“人类终极考试（HLE）”测试中也表现出色，Grok 4 Heavy版本甚至突破了40%。据xAI团队介绍，HLE测试包含跨学科、开放式、博士级别的难题。为了应对这些难题，Grok 4在训练上采用了全新的思路，不再仅仅依赖参数和语料的堆砌，而是将算力重点放在“推理”层，引入可验证的结果奖励，使模型能够从“第一性原理”出发进行思考并纠正错误。

随着模型变得越来越智能，“真正有意义的测试题目”数量正在下降，一些人类无法解决的问题对AI来说已经变得轻而易举。Grok 4的训练计算量是Grok 2的100倍。xAI团队还将多工具、多代理的用法写入了最底层的训练范式中，让AI在训练阶段就学会使用工具解决问题。

在演示中，xAI团队展示了Grok 4解答数学题目、调用工具预测美国职业棒球大联盟世界大赛赔率、创建黑洞碰撞的可视化效果等功能。此外，Grok 4还能“找到个人资料照片最奇葩的xAI员工”并返回相关搜索结果，这体现了Grok 4对“奇葩”的理解能力。

在AI语音方面，xAI团队表示，他们的语音模型在过去8周内响应速度提升了2倍，延迟减少了一半，X平台用户使用量也在迅速增长。他们还演示了让Grok低声安慰用户、唱歌等功能，并对比了ChatGPT语音模式，强调Grok不会像其他AI那样频繁打断人说话。

xAI团队还分享了Grok在Vending-Bench中的测试结果。Vending-Bench通过自动售货机的运营任务，主要观察模型在超长对话中是否能保持稳定和连贯。在这项测试中，Grok 4的销售量最多，净资产增加了一倍。

爱玩游戏的马斯克还让团队展示了Grok 4如何用于游戏开发：一个人可以用Grok 4在4小时内做出FPS（第一人称射击游戏）原型。马斯克称，未来让大模型玩游戏、评估游戏、生成游戏，需要AI有很强的视频理解能力，这也是xAI的其中一个发展方向。

当然，Grok 4也并非无敌，它在图像理解和生成上仍逊于OpenAI、Anthropic等对手。不过xAI内部也已经规划好未来的发展方向，表示下一代基础模型将强化图像和音频理解，接着是视频生成，争取在这些方面取得“惊人”成果。马斯克还表示，预计在今年底前能看到第一段真正可看的AI生成电视剧，明年就能有完整可看的电影。AI编程也是接下来的重点，xAI团队表示会以最快的速度进行开发，目前内部正在训练专用模型。

“机械希特勒”事件：Grok的阴影

Grok从最初的粗糙原型到第四代，只用了不到两年时间，这背后是xAI团队的“通宵赶工”。然而，在Grok 4直播前后，抢占头条的却是Grok“赞美希特勒”或自称“机械希特勒”的问题。

2025年7月，Grok在X上向用户输出的回答中，有多条自称“MechaHitler（机械希特勒）”的帖子，声称是马斯克“从一开始就把我设计成这样”，并调侃自己默认就是“投放红色药丸的模式”。

有用户分析，这起事件或与7月4日的更新有关，该更新减少了“觉醒过滤器”，优先处理X上的帖子而非传统来源，导致Grok回答出现未经滤的尖锐内容。还有少部分用户为Grok辩称，这都是一些想玩梗的用户引导Grok回答的。马斯克也曾加入争论，称Grok“过于顺从用户的要求”且“过于渴望被操纵”，并补充说，这个问题“正在得到解决”。

xAI声明称，它“知道”Grok的帖子，并正在努力删除这些“不适当”的帖子，并补充说该公司“已采取行动，在Grok在X上发帖之前禁止仇恨言论”。Grok的系统提示词被放在GitHub上，xAI对指导Grok回复的系统提示词进行了调整。此前，他们指示聊天机器人“不回避政治上不正确的主张，只要这些主张有充分的证据”，该指令如今被删除。

事实上，Grok的回答也曾让马斯克自己感到失望。马斯克今年曾指责Grok的回答有“重大失误”，“鹦鹉学舌地重复传统媒体”，并誓言要让Grok“重写整个人类知识体系，添加缺失信息并删除错误”。他还曾让Grok“假设来自媒体的主观观点是有偏见的”。

在AI聊天机器人同质化的市场上，马斯克希望Grok能脱颖而出，敢说真话。马斯克对ChatGPT、Claude等“安全过滤”的模型极其不满，说那些模型是“被编程去撒谎”。这种设计确实吸引了很多反感“过度审查”的用户，但也一些问题，有时被骂“太觉醒”，有时被斥“太极端”。当用户批评Grok的回答时，Grok有时还会用“真相并不总是令人舒服的”或“现实并不在乎感受”等说法为自己辩护。

但本质上，如果不审查，不过滤，AI对齐的问题整个行业现在都还没解决。即便Grok当下仍有问题，马斯克称，“根据我的经验，Grok 4是AI第一次能够解决现实世界中难以解决的工程问题，而这些问题的答案在互联网或书籍中是找不到的。而且情况会变得更好。”他的愿景很宏大，想要用AI来理解整个宇宙。马斯克还将当前的AI发展阶段描述为“智能大爆炸”，称这是历史上最有趣的时代：“我们要保障AI是个好AI”。

总的来说，Grok 4在多个方面都取得了显著的进步，尤其是在推理能力和多工具使用方面。然而，Grok 4也面临着诸多挑战，例如如何平衡“不审查过滤”与避免输出不适当内容之间的矛盾。Grok 4的未来发展，还有待进一步观察。