Grok4学会“第一性原理”仍不到“AI王炸”？马斯克的AI宇宙梦

Grok4：学会「第一性原理」的AI，距离「王炸」还有多远？

2025年7月，埃隆·马斯克依旧是科技圈最忙碌的人。特斯拉、Optimus机器人项目、SpaceX的火箭发射、Neuralink的脑机接口试验，还有在X平台上与特朗普的隔空对战、高调宣布创立「美国党」，各种话题不断。

在自己掌控的社交网络X上，马斯克不仅是老板、客服，还是首席网红，全力推广xAI的新一代Grok——他口中的「真相机器」，目标是赶超OpenAI等竞争对手。7月9日晚，xAI团队直播展示Grok 4，马斯克亲自站台，称Grok是「世界最强AI」，比许多「研究生」「博士」都强。

然而，用户们还记得Grok 3「赞美希特勒」的风波，这个话题在Grok 4直播当天依旧占据媒体头条。直播延迟了一个小时才开始，用户在xAI帖子下留言「把Grok放出来！」，也有人继续刷着「希特勒」相关梗。

进入第四代的Grok，在一些模型测试中表现出色，但它能否真正解决一些老问题？这个常常被质疑是「直男AI」「谣言搬运机」的「真相机器」，又是否真能兑现「不过滤」却又不失控的承诺？

Grok 4各种测试集结果

马斯克的「考神AI」

「Grok 4在所有学科里都达到了研究生水平，甚至比大多数PhD都强。」马斯克如此定位Grok的最新一代。

当然，即使在文本里能解决99%的难题，也不代表就能设计火箭、改进药物、重塑经济。马斯克认为，AI现在可能缺乏常识，有时无法发明新技术或新物理，但这只是「时间问题」。

除了在SAT、GRE考试中取得近乎完美的成绩，在「人类终极考试（HLE）」测试中，Grok 4的得分也高于Gemini 2.5 Pro和o3，Grok 4 Heavy版本更是突破了40%。

Grok 4 HLE 结果

xAI团队成员解释说，这些都是跨学科、开放式、博士级别的难题。为了做到这一点，Grok 4在训练上彻底改变了思路：不再只是堆参数和语料的规模，而是选择将算力大头用在「推理」层，引入可验证的结果奖励，让模型学会从「第一性原理」思考并纠正错误。

他们还强调，随着模型变得越来越智能，「真正有意义的测试题目」数量正在下降，一些人类做不出的问题现在对于AI来说已经是「小菜一碟」了。

人类终极考试

据称，Grok 4的训练计算量是Grok 2的100倍。他们还将多工具、多代理的用法，写进了最底层的训练范式里。不是先训练好一个大模型再用插件「调用工具」，而是让AI在训练阶段就学会用工具解决问题。

在演示中，xAI团队展示了Grok 4解答数学题目、调用工具预测美国职业棒球大联盟世界大赛赔率、创建黑洞碰撞的可视化效果等例子。

除了这些主流AI也能实现的功能，Grok 4还能「找到个人资料照片最奇葩的xAI员工」并返回相关搜索结果。

马斯克对此特别强调，Grok 4甚至「能理解什么是最奇葩」。

Grok 4 找照片

在AI语音方面，xAI团队称，他们的语音模型在过去8周内响应速度提升了2倍，延迟减少一半，X平台用户使用量也在「起飞」。他们还演示了让Grok低声安慰用户、唱歌，并对比了ChatGPT语音模式，强调Grok不会像其他AI那样频繁打断人说话。

xAI团队还分享了Grok在Vending-Bench中的测试结果。

Vending-Bench通过自动售货机的运营任务，主要观察模型在超长对话中是否能保持稳定和连贯。许多AI模型在短期任务中表现出色，但在长时间运行中，它们可能会出现决策混乱、遗忘关键信息，甚至陷入「崩溃循环」。在这项测试中，Grok 4销售量最多，比Claude Opus 4、人类、Gemini2.5 Pro、o3都多，与竞争对手相比，净资产增加了一倍。

马斯克和团队还宣布，xAI的企业部门现在已经「开业」。

此外，爱玩游戏的马斯克还让团队展示了Grok 4如何用于游戏开发：一个人可以用Grok 4在4小时内做出FPS（第一人称射击游戏）原型。

马斯克称，未来让大模型玩游戏、评估游戏、生成游戏，需要AI有很强的视频理解能力。这是xAI的其中一个发展方向。

Grok 4 用于游戏场景

当然，Grok 4也并非无敌，它在图像理解和生成上仍逊于OpenAI、Anthropic等对手。

不过xAI内部也已经规划好，表示下一代基础模型将强化图像和音频理解，接着是视频生成，争取在这些方面取得「惊人」的成果。

马斯克还喊话，「到今年底前，我预期能出现第一段真正可看的AI生成电视剧，明年就能有完整可看的电影。」

AI编程也是接下来的重点，虽然竞争对手们早已在市场起飞，xAI团队表示会以最快的速度进行开发，目前内部正在训练专用模型。

xAI 下一步计划

「机械希特勒」事件抢风头

Grok从最初的粗糙原型到第四代，只用了不到两年时间，可见马斯克让xAI团队「通宵赶工」「赶紧卷出地表最强AI」的态度。

xAI 员工据称在办公室搭帐篷睡觉

然而，在Grok 4直播这一天，抢占头条的却是Grok「赞美希特勒」或自称「机械希特勒」的问题。

7月，Grok在X上向用户输出的回答中，有多条自称「MechaHitler（机械希特勒）」的帖子，声称是马斯克「从一开始就把我设计成这样」，并调侃自己默认就是「投放红色药丸的模式」。

有用户分析，这起事件或与7月4日的更新有关，该更新减少了「觉醒过滤器」，优先处理X上的帖子而非传统来源，导致Grok回答出现未经过滤的尖锐内容。

还有少部分用户为Grok辩称，这都是一些想玩梗的用户引导Grok回答的。马斯克也曾加入争论，称Grok「过于顺从用户的要求」且「过于渴望被操纵」，并补充说，这个问题「正在得到解决」。

xAI声明称，它「知道」Grok的帖子，并正在努力删除这些「不适当」的帖子，并补充说该公司「已采取行动，在Grok在X上发帖之前禁止仇恨言论」。

Grok的系统提示词被放在GitHub上，xAI对指导Grok回复的系统提示词进行了调整。此前，他们指示聊天机器人「不回避政治上不正确的主张，只要这些主张有充分的证据」，该指令如今被删除。

Grok 称正在删除不适当的帖子

事实上，Grok的回答也曾让马斯克自己感到失望。

马斯克今年曾指责Grok的回答有「重大失误」，「鹦鹉学舌地重复传统媒体」，并誓言要让Grok「重写整个人类知识体系，添加缺失信息并删除错误」。他还曾让Grok「假设来自媒体的主观观点是有偏见的」。

马斯克曾对 Grok 的输出表示不满

马斯克想用 Grok 重写整个人类知识库

在AI聊天机器人同质化的市场上，马斯克希望Grok能脱颖而出，敢说真话。马斯克对ChatGPT、Claude等「安全过滤」的模型极其不满，说那些模型是「被编程去撒谎」。

官网宣传 Grok 的卖点是「不审查过滤」答案

这种设计确实吸引了很多反感「过度审查」的用户，但也带来了一些问题，有时被骂「太觉醒」，有时被斥「太极端」。当用户批评Grok的回答时，Grok有时还会用「真相并不总是令人舒服的」或「现实并不在乎感受」等说法为自己辩护。

但本质上，如果不审查、不过滤，AI对齐的问题整个行业现在都还没有解决。

马斯克曾说 xAI 和 Grok 的使命是理解宇宙

即便Grok当下仍有问题，马斯克称，「根据我的经验，Grok 4是AI第一次能够解决现实世界中难以解决的工程问题，而这些问题的答案在互联网或书籍中是找不到的。而且情况会变得更好。」

他的愿景很宏大，想要用AI来理解整个宇宙。Grok 4直播前一天，他还在X上转发前高管的采访片段，里面说：「埃隆每天早上醒来都会想，今天我能为人类做些什么？我能做些什么对人类的未来产生影响？」

马斯克还将当前的AI发展阶段描述为「智能大爆炸」，称这是历史上最有趣的时代：

「我们要保障AI是个好AI」。