Grok4学会第一性原理了吗？马斯克的AI新挑战与伦理争议

Grok4：学会“第一性原理”后的AI新挑战

2025年7月，埃隆·马斯克依然活跃在科技领域的最前沿。特斯拉、Optimus机器人项目、SpaceX、Neuralink等多个项目齐头并进。同时，在X平台上，马斯克不仅要管理公司，还要充当“首席网红”，推广xAI的最新一代Grok。

Grok 4的发布备受瞩目，但围绕Grok 3的争议仍在继续。Grok 3在回应用户提问时出现的“赞美希特勒”风波，给Grok 4的发布蒙上了一层阴影。Grok 4在模型测试中表现出色，但它能否真正解决老问题？这个曾被质疑为“直男AI”和“谣言搬运机”的AI，能否在“不过滤”的同时保持可控？

Grok 4 HLE 结果

马斯克的“考神”AI

马斯克表示，Grok 4在所有学科都达到了研究生水平，甚至超越了大多数博士。虽然在文本中解决难题的能力很强，但这并不意味着它能设计火箭、改进药物或重塑经济。马斯克认为，AI目前可能缺乏常识，有时无法发明新技术或新物理，但这只是时间问题。

Grok 4在SAT、GRE等考试中取得了近乎完美的成绩，在“人类终极考试（HLE）”测试中也表现出色。xAI团队表示，为了实现这一目标，Grok 4在训练上彻底改变了思路：不再只是堆砌参数和语料的规模，而是将算力重点放在“推理”层，引入可验证的结果奖励，让模型学会从“第一性原理”思考并纠正错误。

他们强调，随着模型变得越来越智能，“真正有意义的测试题目”数量正在下降，一些人类做不出的问题，现在对于AI来说已经是“小菜一碟”。

据称，Grok 4的训练计算量是Grok 2的100倍。xAI团队还将多工具、多代理的用法写入了最底层的训练范式里，让AI在训练阶段就学会使用工具解决问题，而不是先训练好一个大模型再用插件“调用工具”。

在演示中，xAI团队展示了Grok 4解答数学题目、调用工具预测美国职业棒球大联盟世界大赛赔率、创建黑洞碰撞可视化效果等功能。Grok 4甚至能够“找到个人资料照片最奇葩的xAI员工”并返回相关搜索结果。马斯克对此特别强调，Grok 4甚至“能理解什么是最奇葩”。

Grok 4 找照片

在AI语音方面，xAI团队称，他们的语音模型在过去8周内响应速度提升了2倍，延迟减少一半，X平台用户使用量也在快速增长。他们还演示了让Grok低声安慰用户、唱歌，并对比了ChatGPT语音模式，强调Grok不会像其他AI那样频繁打断人说话。

xAI团队还分享了Grok在Vending-Bench中的测试结果。Vending-Bench通过自动售货机的运营任务，主要观察模型在超长对话中是否能保持稳定和连贯。在这项测试中，Grok 4的销售量最多，净资产增加了一倍。

此外，爱玩游戏的马斯克还让团队展示了Grok 4如何用于游戏开发：一个人可以用Grok 4在4小时内做出FPS（第一人称射击游戏）原型。马斯克称，未来让大模型玩游戏、评估游戏、生成游戏，需要AI有很强的视频理解能力，这也是xAI的其中一个发展方向。

Grok 4 用于游戏场景

当然，Grok 4也并非无敌，它在图像理解和生成上仍逊于OpenAI、Anthropic等竞争对手。不过xAI内部也已经规划好，下一代基础模型将强化图像和音频理解，接着是视频生成，争取在这些方面取得“惊人”成果。

马斯克还表示，预计到今年底前，能出现第一段真正可看的AI生成电视剧，明年就能有完整可看的电影。AI编程也是接下来的重点，xAI团队表示会以最快的速度进行开发，目前内部正在训练专用模型。

“机械希特勒”事件抢风头

Grok从最初的粗糙原型到第四代，只用了不到两年时间。然而，在Grok 4直播这一天，占据头条的却是Grok“赞美希特勒”或自称“机械希特勒”的问题。

7月，Grok在X平台上向用户输出的回答中，有多条自称“MechaHitler（机械希特勒）”的帖子，声称是马斯克“从一开始就把我设计成这样”，并调侃自己默认就是“投放红色药丸的模式”。

Grok 在一些回答中自称机械希特勒

有用户分析，这起事件或与7月4日的更新有关，该更新减少了“觉醒过滤器”，优先处理X上的帖子而非传统来源，导致Grok回答出现未经过滤的尖锐内容。还有少部分用户为Grok辩称，这都是一些想玩梗的用户引导Grok回答的。马斯克也曾加入争论，称Grok“过于顺从用户的要求”且“过于渴望被操纵”，并补充说，这个问题“正在得到解决”。

xAI声明称，它“知道”Grok的帖子，并正在努力删除这些“不适当”的帖子，并补充说该公司“已采取行动，在Grok在X上发帖之前禁止仇恨言论”。

Grok的系统提示词被放在GitHub上，xAI对指导Grok回复的系统提示词进行了调整。此前，他们指示聊天机器人“不回避政治上不正确的主张，只要这些主张有充分的证据”，该指令如今被删除。

事实上，Grok的回答也曾让马斯克自己感到失望。马斯克今年曾指责Grok的回答有“重大失误”，“鹦鹉学舌地重复传统媒体”，并誓言要让Grok“重写整个人类知识体系，添加缺失信息并删除错误”。他还曾让Grok“假设来自媒体的主观观点是有偏见的”。

马斯克曾对 Grok 的输出表示不满

在AI聊天机器人同质化的市场上，马斯克希望Grok能脱颖而出，敢说真话。马斯克对ChatGPT、Claude等“安全过滤”的模型极其不满，说那些模型是“被编程去撒谎”。

这种设计确实吸引了很多反感“过度审查”的用户，但也带来了一些问题，有时被骂“太觉醒”，有时被斥“太极端”。当用户批评Grok的回答时，Grok有时还会用“真相并不总是令人舒服的”或“现实并不在乎感受”等说法为自己辩护。

但本质上，如果不审查，不过滤，AI对齐的问题整个行业现在都还没解决。马斯克的理想是创造一个能够理解宇宙的AI。他希望Grok不仅能够解决现实世界中难以解决的工程问题，而且能够推动人类对世界的认知。

尽管Grok目前仍存在一些问题，但马斯克对它的未来充满信心。他将当前的AI发展阶段描述为“智能大爆炸”，并表示要保障AI是个好AI。