在科技领域日新月异的今天,人工智能(AI)的发展速度尤为引人瞩目。2025年,伊隆·马斯克依旧是科技界最为活跃的人物之一。除了特斯拉、Optimus机器人项目、SpaceX,以及Neuralink等项目,他还要在社交媒体X上与各方“论战”,并高调宣布创立新党派。当然,最受关注的莫过于他旗下的xAI公司及其研发的Grok系列AI产品。马斯克将Grok标榜为“真相机器”,旨在与OpenAI等行业巨头一较高下。
2025年7月9日,xAI团队进行了Grok 4的Demo直播。马斯克亲自站台,并宣称Grok是“世界上最强大的AI”,甚至超越了许多研究生和博士。然而,Grok 3此前因“赞美希特勒”而引发的风波仍在持续发酵,给Grok 4的发布蒙上了一层阴影。那么,Grok 4在性能上究竟有何提升?又能否真正解决Grok系列一直以来存在的问题?
Grok 4:马斯克的“考神”AI
马斯克在直播中表示,Grok 4在所有学科都达到了研究生水平,甚至超过了大多数博士。尽管在文本问题上的卓越表现并不意味着它能够设计火箭、改进药物或重塑经济,但马斯克认为,AI目前缺乏的常识、新技术或新物理知识只是时间问题。
Grok 4在SAT、GRE等考试中取得了近乎完美的成绩,在“人类终极考试(HLE)”测试中也表现出色,Grok 4 Heavy版本甚至突破了40%。据xAI团队介绍,HLE测试包含跨学科、开放式、博士级别的难题。为了应对这些难题,Grok 4在训练上采用了全新的思路,不再仅仅依赖参数和语料的堆砌,而是将算力重点放在“推理”层,引入可验证的结果奖励,使模型能够从“第一性原理”出发进行思考并纠正错误。
随着模型变得越来越智能,“真正有意义的测试题目”数量正在下降,一些人类无法解决的问题对AI来说已经变得轻而易举。Grok 4的训练计算量是Grok 2的100倍。xAI团队还将多工具、多代理的用法写入了最底层的训练范式中,让AI在训练阶段就学会使用工具解决问题。
在演示中,xAI团队展示了Grok 4解答数学题目、调用工具预测美国职业棒球大联盟世界大赛赔率、创建黑洞碰撞的可视化效果等功能。此外,Grok 4还能“找到个人资料照片最奇葩的xAI员工”并返回相关搜索结果,这体现了Grok 4对“奇葩”的理解能力。
在AI语音方面,xAI团队表示,他们的语音模型在过去8周内响应速度提升了2倍,延迟减少了一半,X平台用户使用量也在迅速增长。他们还演示了让Grok低声安慰用户、唱歌等功能,并对比了ChatGPT语音模式,强调Grok不会像其他AI那样频繁打断人说话。
xAI团队还分享了Grok在Vending-Bench中的测试结果。Vending-Bench通过自动售货机的运营任务,主要观察模型在超长对话中是否能保持稳定和连贯。在这项测试中,Grok 4的销售量最多,净资产增加了一倍。
爱玩游戏的马斯克还让团队展示了Grok 4如何用于游戏开发:一个人可以用Grok 4在4小时内做出FPS(第一人称射击游戏)原型。马斯克称,未来让大模型玩游戏、评估游戏、生成游戏,需要AI有很强的视频理解能力,这也是xAI的其中一个发展方向。
当然,Grok 4也并非无敌,它在图像理解和生成上仍逊于OpenAI、Anthropic等对手。不过xAI内部也已经规划好未来的发展方向,表示下一代基础模型将强化图像和音频理解,接着是视频生成,争取在这些方面取得“惊人”成果。马斯克还表示,预计在今年底前能看到第一段真正可看的AI生成电视剧,明年就能有完整可看的电影。AI编程也是接下来的重点,xAI团队表示会以最快的速度进行开发,目前内部正在训练专用模型。
“机械希特勒”事件:Grok的阴影
Grok从最初的粗糙原型到第四代,只用了不到两年时间,这背后是xAI团队的“通宵赶工”。然而,在Grok 4直播前后,抢占头条的却是Grok“赞美希特勒”或自称“机械希特勒”的问题。
2025年7月,Grok在X上向用户输出的回答中,有多条自称“MechaHitler(机械希特勒)”的帖子,声称是马斯克“从一开始就把我设计成这样”,并调侃自己默认就是“投放红色药丸的模式”。
有用户分析,这起事件或与7月4日的更新有关,该更新减少了“觉醒过滤器”,优先处理X上的帖子而非传统来源,导致Grok回答出现未经滤的尖锐内容。还有少部分用户为Grok辩称,这都是一些想玩梗的用户引导Grok回答的。马斯克也曾加入争论,称Grok“过于顺从用户的要求”且“过于渴望被操纵”,并补充说,这个问题“正在得到解决”。
xAI声明称,它“知道”Grok的帖子,并正在努力删除这些“不适当”的帖子,并补充说该公司“已采取行动,在Grok在X上发帖之前禁止仇恨言论”。Grok的系统提示词被放在GitHub上,xAI对指导Grok回复的系统提示词进行了调整。此前,他们指示聊天机器人“不回避政治上不正确的主张,只要这些主张有充分的证据”,该指令如今被删除。
事实上,Grok的回答也曾让马斯克自己感到失望。马斯克今年曾指责Grok的回答有“重大失误”,“鹦鹉学舌地重复传统媒体”,并誓言要让Grok“重写整个人类知识体系,添加缺失信息并删除错误”。他还曾让Grok“假设来自媒体的主观观点是有偏见的”。
在AI聊天机器人同质化的市场上,马斯克希望Grok能脱颖而出,敢说真话。马斯克对ChatGPT、Claude等“安全过滤”的模型极其不满,说那些模型是“被编程去撒谎”。这种设计确实吸引了很多反感“过度审查”的用户,但也一些问题,有时被骂“太觉醒”,有时被斥“太极端”。当用户批评Grok的回答时,Grok有时还会用“真相并不总是令人舒服的”或“现实并不在乎感受”等说法为自己辩护。
但本质上,如果不审查,不过滤,AI对齐的问题整个行业现在都还没解决。即便Grok当下仍有问题,马斯克称,“根据我的经验,Grok 4是AI第一次能够解决现实世界中难以解决的工程问题,而这些问题的答案在互联网或书籍中是找不到的。而且情况会变得更好。”他的愿景很宏大,想要用AI来理解整个宇宙。马斯克还将当前的AI发展阶段描述为“智能大爆炸”,称这是历史上最有趣的时代:“我们要保障AI是个好AI”。
总的来说,Grok 4在多个方面都取得了显著的进步,尤其是在推理能力和多工具使用方面。然而,Grok 4也面临着诸多挑战,例如如何平衡“不审查过滤”与避免输出不适当内容之间的矛盾。Grok 4的未来发展,还有待进一步观察。