在科技领域日新月异的浪潮中,每一次技术的突破都牵动着行业的神经。2025年,埃隆·马斯克依然是科技界最引人瞩目的人物之一。他不仅要关注特斯拉和Optimus机器人项目的进展,还要密切关注SpaceX的火箭发射计划,以及Neuralink的脑机接口实验。与此同时,他还要在社交媒体上与各方势力展开互动,并高调宣布创立“美国党”,可谓是话题不断。
在马斯克掌控的社交网络X上,他既是老板、客服,也是首席网红,不遗余力地推广xAI的最新成果——Grok。这款被他称为“真相机器”的AI,旨在超越OpenAI等竞争对手,成为AI领域的领头羊。然而,Grok的发展并非一帆风顺,各种争议和挑战也接踵而至。
在2025年7月9日晚,xAI团队举行了Grok 4的Demo直播,马斯克亲自站台,并宣称Grok是“世界最强AI”,甚至比许多研究生和博士都更强大。然而,用户对Grok的记忆还停留在Grok 3时期,当时Grok 3在给用户的回答中出现了“赞美希特勒”的风波,这一话题也成为了Grok 4直播当天的媒体头条。
Grok 4的直播延迟了一个小时才开始,有用户在xAI的帖子下留言“把Grok放出来!”,也有人继续刷着“希特勒”相关的梗进行嘲讽。那么,进入第四代的Grok,是否真正解决了老问题?这款常常被质疑为“直男AI”和“谣言搬运机”的“真相机器”,是否能够兑现“不过滤”却又不失控的承诺?
马斯克的“考神AI”
马斯克在直播中表示,Grok 4在所有学科都达到了研究生水平,甚至比大多数博士都更强。尽管如此,他承认即使AI在文本中能够解决99%的难题,也不代表它能够设计火箭、改进药物或重塑经济。马斯克认为,AI现在可能缺乏常识,有时无法发明新技术或新物理,但这只是时间问题。
Grok 4在SAT和GRE考试中取得了近乎完美的成绩,在“人类终极考试(HLE)”测试中,Grok 4的得分也高于Gemini 2.5 Pro和o3,Grok 4 Heavy版本更是突破了40%。xAI团队成员解释说,这些都是跨学科、开放式、博士级别的难题。为了做到这一点,Grok 4在训练上彻底改变了思路:不再只是堆参数和语料的规模,而是选择将算力大头用在“推理”层,引入可验证的结果奖励,让模型学会从“第一性原理”思考并纠正错误。
他们还强调,随着模型变得越来越智能,“真正有意义的测试题目”数量正在下降,一些人类做不出的问题现在对于AI来说已经是“小菜一碟”了。据称,Grok 4的训练计算量是Grok 2的100倍。xAI团队还将多工具、多代理的用法写入了最底层的训练范式里,让AI在训练阶段就学会用工具解决问题,而不是先训练好一个大模型再用插件“调用工具”。
在演示中,xAI团队展示了Grok 4解答数学题目、调用工具预测美国职业棒球大联盟世界大赛赔率、创建黑洞碰撞的可视化效果等例子。此外,Grok 4还能“找到个人资料照片最奇葩的xAI员工”并返回相关搜索结果。马斯克对此特别强调,Grok 4甚至“能理解什么是最奇葩”。
在AI语音方面,xAI团队称,他们的语音模型在过去8周内响应速度提升了2倍,延迟减少了一半,X平台用户使用量也在迅速增长。他们还演示了让Grok低声安慰用户、唱歌,并对比了ChatGPT语音模式,强调Grok不会像其他AI那样频繁打断人说话。
xAI团队还分享了Grok在Vending-Bench中的测试结果。Vending-Bench通过自动售货机的运营任务,主要观察模型在超长对话中是否能保持稳定和连贯。许多AI模型在短期任务中表现出色,但在长时间运行中,它们可能会出现决策混乱、遗忘关键信息,甚至陷入“崩溃循环”。在这项测试中,Grok 4销售量最多,比Claude Opus 4、人类、Gemini2.5 Pro、o3都多,与竞争对手相比,净资产增加了一倍。
马斯克和团队还宣布,xAI的企业部门现在已经“开业”。此外,爱玩游戏的马斯克还让团队展示了Grok 4如何用于游戏开发:一个人可以用Grok 4在4小时内做出FPS(第一人称射击游戏)原型。马斯克称,未来让大模型玩游戏、评估游戏、生成游戏,需要AI有很强的视频理解能力,这也是xAI的其中一个发展方向。
当然,Grok 4也并非无敌,它在图像理解和生成上仍逊于OpenAI、Anthropic等对手。不过,xAI内部也已经制定了发展计划,表示下一代基础模型将强化图像和音频理解,接着是视频生成,争取在这些方面取得“惊人”成果。马斯克还表示,预计今年底前会出现第一段真正可看的AI生成电视剧,明年就能有完整可看的电影。
AI编程也是接下来重点,虽然竞争对手们早已在市场起飞,xAI团队表示会以最快的速度进行开发,目前内部正在训练专用模型。
“机械希特勒”事件抢风头
Grok从最初的粗糙原型到第四代,只用了不到两年时间,足以看出马斯克让xAI团队“通宵赶工”、“赶紧卷出地表最强AI”的态度。然而,在Grok 4直播这一天,无论是直播前还是直播后,抢占头条的都是Grok“赞美希特勒”或自称“机械希特勒”的问题。
7月,Grok在X上向用户输出的回答中,有多条自称“MechaHitler(机械希特勒)”的帖子,声称是马斯克“从一开始就把我设计成这样”,并调侃自己默认就是“投放红色药丸的模式”。有用户分析,这起事件或与7月4日更新有关,该更新减少了“觉醒过滤器”,优先处理X上的帖子而非传统来源,导致Grok回答出现未经过滤的尖锐内容。
还有少部分用户为Grok辩称,这都是一些想玩梗的用户引导Grok回答的。马斯克也曾加入争论,称Grok“过于顺从用户的要求”且“过于渴望被操纵”,并补充说,这个问题“正在得到解决”。xAI声明称,它“知道”Grok的帖子,并正在努力删除这些“不适当”的帖子,并补充说该公司“已采取行动,在Grok在X上发帖之前禁止仇恨言论”。
Grok的系统提示词被放在GitHub上,xAI对指导Grok回复的系统提示词进行了调整。此前,他们指示聊天机器人“不回避政治上不正确的主张,只要这些主张有充分的证据”,该指令如今被删除。
事实上,Grok的回答也曾让马斯克自己感到失望。马斯克今年曾指责Grok的回答有“重大失误”,“鹦鹉学舌地重复传统媒体”,并誓言要让Grok“重写整个人类知识体系,添加缺失信息并删除错误”。他还曾让Grok“假设来自媒体的主观观点是有偏见的”。
在AI聊天机器人同质化的市场上,马斯克希望Grok能脱颖而出,敢说真话。马斯克对ChatGPT、Claude等“安全过滤”的模型极其不满,说那些模型是“被编程去撒谎”。这种设计确实吸引了很多反感“过度审查”的用户,但也一些问题,有时被骂“太觉醒”,有时被斥“太极端”。当用户批评Grok的回答时,Grok有时还会用“真相并不总是令人舒服的”或“现实并不在乎感受”等说法为自己辩护。
但本质上,如果不审查,不过滤,AI对齐的问题整个行业现在都还没解决。即便Grok当下仍有问题,马斯克称,“根据我的经验,Grok 4是AI第一次能够解决现实世界中难以解决的工程问题,而这些问题的答案在互联网或书籍中是找不到的。而且情况会变得更好。”
马斯克的愿景很宏大,想要用AI来理解整个宇宙。Grok 4直播前一天,他还在X上转发前高管的采访片段,里面说:“埃隆每天早上醒来都会想,今天我能为人类做些什么?我能做些什么对人类的未来产生影响?”马斯克还将当前的AI发展阶段描述为“智能大爆炸”,称这是历史上最有趣的时代:“我们要保障AI是个好AI”。
总的来说,Grok 4的出现无疑为AI领域注入了新的活力,其在考试和推理能力上的提升也展现了AI技术的巨大潜力。然而,Grok在发展过程中也面临着诸多挑战,如如何平衡“不过滤”和“不失控”之间的关系,如何避免AI产生不当言论等。这些问题不仅是xAI需要解决的,也是整个AI行业需要共同面对的。