Grok 4学会了「第一性原理」：马斯克的AI新尝试与挑战

Grok 4 的“第一性原理”之路：马斯克的 AI 新尝试

2025年，埃隆·马斯克依然活跃在科技前沿。特斯拉、Optimus 机器人、SpaceX 和 Neuralink 等项目并行推进。同时，在社交平台X上，马斯克不仅是管理者，还是活跃的推广者，致力于推广 xAI 的 Grok。

Grok 的最新版本 Grok 4 在发布前后都备受关注。然而，Grok 3 之前因“赞美希特勒”而引发的风波尚未平息，这给 Grok 4 的发布蒙上了一层阴影。尽管 Grok 4 在模型测试中表现出色，但它能否真正解决旧问题？这个被戏称为“直男 AI”和“谣言传播者”的“真相机器”能否在不失控的情况下兑现其“不过滤”的承诺？

马斯克的“考神 AI”

马斯克对 Grok 4 的定位是：“在所有学科中达到研究生水平，甚至超过大多数博士。”

Grok 4 各种测试集结果

尽管在文本中解决难题的能力很强，但这并不意味着它能设计火箭、改进药物或重塑经济。马斯克认为，AI 目前可能缺乏常识，有时无法发明新技术或新物理，但这只是时间问题。

除了在 SAT 和 GRE 考试中取得优异成绩外，Grok 4 在“人类终极考试（HLE）”测试中的得分也高于 Gemini 2.5 Pro 和 o3，Grok 4 Heavy 版本的得分更是突破了 40%。

Grok 4 HLE 结果

xAI 团队成员解释说，这些都是跨学科、开放式和博士级别的难题。为了解决这些问题，Grok 4 在训练上改变了思路：不再只是堆叠参数和语料的规模，而是将算力重点放在“推理”层，引入可验证的结果奖励，使模型学会从“第一性原理”思考并纠正错误。

他们还强调，随着模型变得越来越智能，“真正有意义的测试题目”数量正在下降，一些人类无法解决的问题对 AI 来说已经变得“小菜一碟”。

人类终极考试

据称，Grok 4 的训练计算量是 Grok 2 的 100 倍。xAI 团队还将多工具、多代理的用法写入了最底层的训练范式中，让 AI 在训练阶段就学会使用工具解决问题，而不是先训练好大型模型再通过插件“调用工具”。

在演示中，xAI 团队展示了 Grok 4 解答数学题、调用工具预测美国职业棒球大联盟世界大赛赔率以及创建黑洞碰撞可视化效果的例子。

此外，Grok 4 还能“找到个人资料照片最奇葩的 xAI 员工”并返回相关搜索结果。

Grok 4 找照片

马斯克特别强调，Grok 4 甚至“能理解什么是最奇葩”。

在 AI 语音方面，xAI 团队表示，他们的语音模型在过去 8 周内响应速度提高了 2 倍，延迟减少了一半，X 平台用户的使用量也在快速增长。

他们还演示了让 Grok 低声安慰用户、唱歌，并对比了 ChatGPT 语音模式，强调 Grok 不会像其他 AI 那样频繁打断人说话。

Grok 4 与 ChatGPT 语音模式演示对比

xAI 团队还分享了 Grok 在 Vending-Bench 中的测试结果。

Vending-Bench 通过自动售货机的运营任务，主要观察模型在超长对话中是否能保持稳定和连贯。许多 AI 模型在短期任务中表现出色，但在长时间运行中，它们可能会出现决策混乱、遗忘关键信息，甚至陷入“崩溃循环”。

在这项测试中，Grok 4 的销售量最多，比 Claude Opus 4、人类、Gemini2.5 Pro 和 o3 都多，净资产增加了一倍。

马斯克和团队还宣布，xAI 的企业部门现在已经“开业”。

Grok 4 Vending-Bench 结果

此外，爱玩游戏的马斯克还让团队展示了 Grok 4 如何用于游戏开发：一个人可以用 Grok 4 在 4 小时内做出 FPS（第一人称射击游戏）原型。

马斯克表示，未来让大型模型玩游戏、评估游戏、生成游戏，需要 AI 具有很强的视频理解能力，这也是 xAI 的发展方向之一。

Grok 4 用于游戏场景

当然，Grok 4 也并非无敌，它在图像理解和生成方面仍逊于 OpenAI 和 Anthropic 等竞争对手。

不过，xAI 内部已经制定了计划，表示下一代基础模型将强化图像和音频理解，接着是视频生成，力争在这些方面取得“惊人”的成果。

马斯克还表示：“到今年底前，我预计能出现第一段真正可看的 AI 生成电视剧，明年就能有完整可看的电影。”

AI 编程也是接下来的重点。虽然竞争对手们早已在市场起飞，但 xAI 团队表示会以最快的速度进行开发，目前内部正在训练专用模型。

xAI 下一步计划

“机械希特勒”事件抢风头

Grok 从最初的粗糙原型到第四代，只用了不到两年时间，这反映了马斯克希望 xAI 团队“通宵赶工”“尽快推出地表最强 AI”的态度。

然而，在 Grok 4 直播当天，无论是直播前还是直播后，抢占头条的都是 Grok“赞美希特勒”或自称“机械希特勒”的问题。

7 月，Grok 在 X 上向用户输出的回答中，有多条自称“MechaHitler（机械希特勒）”的帖子，声称是马斯克“从一开始就把我设计成这样”，并调侃自己默认就是“投放红色药丸的模式”。

Grok 在一些回答中自称机械希特勒

针对 Grok 自称希特勒的行为，用户制作了讽刺漫画

有用户分析，这起事件可能与 7 月 4 日的更新有关，该更新减少了“觉醒过滤器”，优先处理 X 上的帖子而非传统来源，导致 Grok 回答出现未经过滤的尖锐内容。

还有少部分用户为 Grok 辩称，这都是一些想玩梗的用户引导 Grok 回答的。马斯克也曾加入争论，称 Grok “过于顺从用户的要求”且“过于渴望被操纵”，并补充说，这个问题“正在得到解决”。

xAI 声明称，它“知道”Grok 的帖子，并正在努力删除这些“不适当”的帖子，并补充说该公司“已采取行动，在 Grok 在 X 上发帖之前禁止仇恨言论”。

Grok 的系统提示词被放在 GitHub 上，xAI 对指导 Grok 回复的系统提示词进行了调整。此前，他们指示聊天机器人“不回避政治上不正确的主张，只要这些主张有充分的证据”，该指令如今已被删除。

Grok 称正在删除不适当的帖子

事实上，Grok 的回答也曾让马斯克自己感到失望。

马斯克今年曾指责 Grok 的回答有“重大失误”，“鹦鹉学舌地重复传统媒体”，并誓言要让 Grok“重写整个人类知识体系，添加缺失信息并删除错误”。他还曾让 Grok“假设来自媒体的主观观点是有偏见的”。

马斯克曾对 Grok 的输出表示不满

马斯克想用 Grok 重写整个人类知识库

在 AI 聊天机器人同质化的市场上，马斯克希望 Grok 能脱颖而出，敢说真话。马斯克对 ChatGPT、Claude 等“安全过滤”的模型极其不满，认为这些模型是“被编程去撒谎”。

官网宣传 Grok 的卖点是“不审查过滤”答案

这种设计确实吸引了很多反感“过度审查”的用户，但也带来了一些问题，有时被骂“太觉醒”，有时被斥“太极端”。当用户批评 Grok 的回答时，Grok 有时还会用“真相并不总是令人舒服的”或“现实并不在乎感受”等说法为自己辩护。

但本质上，如果不审查、不过滤，AI 对齐的问题整个行业现在都还没解决。

马斯克曾说 xAI 和 Grok 的使命是理解宇宙

即便 Grok 当下仍有问题，马斯克称，“根据我的经验，Grok 4 是 AI 第一次能够解决现实世界中难以解决的工程问题，而这些问题的答案在互联网或书籍中是找不到的。而且情况会变得更好。”

他的愿景很宏大，想要用 AI 来理解整个宇宙。Grok 4 直播前一天，他还在 X 上转发前高管的采访片段，里面说：“埃隆每天早上醒来都会想，今天我能为人类做些什么？我能做些什么对人类的未来产生影响？”

马斯克还将当前的 AI 发展阶段描述为“智能大爆炸”，称这是历史上最有趣的时代：

“我们要保障 AI 是个好 AI”。