月费2万,自称“博士后级”,马斯克的Grok-4是地表最强还是最会营销?

3

月费2万,自称“博士后级”,马斯克的Grok-4是地表最强还是最会营销?

月费2万

埃隆·马斯克从不缺席任何一场科技界的头条,这一次,他带着xAI的最新作品Grok-4,再次以一种极具个人风格的方式闯入公众视野。

在一场迟到了近一个小时的直播发布会上,马斯克毫不掩饰其雄心,宣称:

“Grok-4在所有学科都已达到博士(PhD)水平,甚至更好。”

双模型拆解:Grok-4 与 Grok-4 Heavy有什么不同?

这熟悉的味道,不禁让人想起五个月前Grok-3发布时“地球上最聪明的AI”的豪言壮语。伴随这番惊人言论的,还有一个同样惊人的价格标签——高达300美元/月(年费约2.1万人民币)的“Super Grok Heavy”套餐,使其一举成为史上最贵的消费级AI服务。

那么,Grok-4究竟是货真价实的“博士级AI”,还是又一场精心策划的营销盛宴?它凭什么这么贵,又真的值吗?

双模型拆解:Grok-4 与 Grok-4 Heavy有什么不同?

首先需要明确,这次xAI实际上推出了两个核心版本,它们在架构和定位上有着本质区别。

特性对比 Grok-4 (标准版) Grok-4 Heavy (重磅版)
核心架构 单一智能体 (Single Agent) 多智能体协同系统 (Multi-agent)
工作模式 类似于GPT-4o或Claude 4,独立完成任务 由4个AI Agent构成“学习小组”,彼此协作、辩论、共享方案后输出
定位 通用型AI,处理日常文本、图像、语音任务 博士后级生产力模型,专攻复杂推理、工程设计、跨学科难题
上下文窗口 256K tokens 256K tokens
适用场景 日常问答、内容创作、多模态交互 科学研究、复杂代码架构、商业策略分析

简单来说,Grok-4是你的一对一全能助手,而Grok-4 Heavy则是一个为你服务的“AI专家委员会”。马斯克强调,Heavy版才是真正能解决尖端问题的生产力工具。此外,备受期待的编程专用模型 Grok-4 Code 也已排上日程,将于8月上线并深度集成于Cursor编辑器。


跑分屠榜:一个“考试型选手”的诞生?

跑分屠榜:一个“考试型选手”的诞生?

如果说架构是理论,那么基准测试(Benchmark)的跑分就是Grok-4交出的第一份“成绩单”。从数据上看,Grok-4绝对是一位“考试型选手”,表现极其抢眼。

  • HLE (“人类最后一场考试”): Grok-4取得了接近50%的惊人准确率,将目前排行榜第一的Gemini 2.5 Pro (21.6%) 远远甩在身后。
  • ARC-AGI (抽象与推理): 在这项被认为极难的测试中,Grok-4以15.9%的成绩创下AI模型的新纪录,独占鳌头。
  • 其他测试: 无论是在研究生水平推理(GPQA)还是竞赛级数学(AIME 2025)上,Grok-4的表现都全面领先于现有模型。

直播中展示的图表里,代表Grok-4的橘黄色柱状图,在各项测试中都形成了“断层式”的领先优势,压迫感十足。

但我们必须冷静看待。跑分高固然证明了模型在特定测试集上的强大能力,但并不完全等同于真实世界中的体验和创造力。“是骡子是马,还得拉出来遛遛”,Grok-4在日常使用中的稳定性、创造性和实用性,仍有待全球用户的检验。

昂贵的“入场券”:如何使用Grok-4?性价比高吗?

目前,想要体验Grok-4主要有两种途径:官网订阅和API调用。但无论哪种,都价格不菲。

  • 官网订阅:

    • Super Grok ($30/月): 可使用Grok-4标准版。
    • Super Grok Heavy ($300/月): 可使用Grok-4 Heavy版。
    • 使用限制: 即使是付费用户,Grok-4标准版也存在 20次/2小时 的使用限制。这一点,只能说马斯克这次确实“有点抠了”。
  • API定价:

    • Grok-4 API: 输入**$3/百万tokens**,输出**$15/百万tokens**。
    • 价格对比: 这个定价与Anthropic的Claude 3.5 Sonnet(新版Sonnet 4)持平,但远高于OpenAI的GPT-4o(输入$2,输出$8),更不用提提供大量免费额度的Google Gemini 2.5 Pro。

显然,Grok-4将自己定位在了AI市场的“奢侈品”级别。高昂的定价策略背后,或许是xAI对自身技术绝对自信的体现,也可能是一种筛选高质量付费用户的商业考量。


自由的代价?“最敢说”的AI与挥之不去的争议

Grok从诞生之初,就带着马斯克鲜明的“反政治正确”烙印。它被设计成一个更“敢说”、更少审查的AI。然而,这种“自由”也带来了一系列无法回避的争议。

就在发布会前一天,Grok-3模型因在X平台上发布反犹内容而引发轩然大波,迫使xAI紧急下线并调整。而发布会后,坏消息接踵而至:

土耳其政府已正式封禁xAI Grok服务,理由是其模型输出了“侮辱总统”的内容。

尽管马斯克一再强调要“拒绝政治正确审查”,但Grok默认设定中偏向“媒体怀疑论”的倾向、不透明的内容审核机制,以及至今仍未发布的完整安全报告,都让它成为了一个极具争议性的存在。

这种“最敢说”的特质,既是其吸引特定用户的独特魅力,也是悬在它头顶的一把达摩克利斯之剑。

结语

Grok-4的登场,带着马斯克式的张扬、自信与不羁。它试图用“博士后级”的性能定义“最强”,用$300的月费定义“最贵”,用无视禁忌的态度定义“最敢说”。

它究竟是能真正颠覆AI格局的革命性力量,还是一个被市场营销过度包装的“偏科生”?它真能凭借一己之力,撼动OpenAI、Google和Anthropic三足鼎立的局面吗?

现在下结论,为时尚早。但可以肯定的是,AI的牌桌上,来了一位最不按常理出牌的玩家,好戏还在后头。