闫俊杰与MiniMax：技术创业者的'心舟'如何飞渡AI万重山

在AI技术浪潮席卷全球的今天，中国技术创业者正迎来前所未有的机遇与挑战。MiniMax创始人闫俊杰的创业历程，犹如一艘技术理想主义的'心舟'，在AI的万重山峦中艰难前行，最终实现了从技术极客到行业引领者的蜕变。本文将深入剖析闫俊杰的创业哲学、技术选择与战略布局，揭示中国AI创业者如何在全球竞争中走出一条独特路径。

纯粹技术创业的初心与坚守

"渴望纯粹"，这是张鹏对闫俊杰最贴切的标签。这一特质可以从他的大学时代追溯——当时，闫俊杰已是张鹏主编科技杂志的忠实读者，对其中关于科技趋势的"暴论"观点如数家珍。这种对技术的敏感与热爱，奠定了他日后创业的底色。

从商汤到MiniMax：技术理想的觉醒

外界普遍认为中国大模型创业浪潮始于2022年底ChatGPT的横空出世，但在闫俊杰的时间表里，他的创业之旅早在2021年底就已启程。在创建MiniMax之前，他是商汤科技最年轻的CTO，在商汤的7年间，他完整经历了AI 1.0时代的周期。

在2023年极客公园前沿社冬季会晤的闭门交流中，闫俊杰曾分享过那个技术时代的无奈："那是一个模型不通用，只能靠工具补齐的时代。A有需求就为A定制一个模型，B有需求就为B定制一个模型。业内唯一能做的通用化努力，只是把生产工具做通用了，用来更批量地生产那些注定无法通用的模型。"

这种范式看似热闹，实则边际成本极高，社会价值却很薄。"如果继续沿着旧路走，为了定制模型而把工具做通用，是死路一条。真正的出路必须反过来——把模型本身变成通用的。只有模型足够通用，定制成本才会归零，技术才能真正普惠。"

CLIP论文：认知转折的催化剂

这个认知的转折点发生在2020年的一个深夜。当闫俊杰第一次读到CLIP论文时，那种冲击感让他激动得两三天没睡着觉。他在那篇论文里看到了一个惊人的未来：文本和图像之间的柏林墙倒塌了，它们在深度学习的底层本质上是统一的。这意味着AI 1.0的死结解开了：只要预训练模型做得足够好，AI就能通用地处理世间万物。

"当这件事发生时，如果你真的相信人工智能，你就应该去做点什么。"于是，他几乎立即决定All in开始自己的AI创业。

Glow的启示：技术能力决定产品形态

当2022年末ChatGPT横空出世时，MiniMax旗下的Glow每天处理着数以亿计的Token，体量一度超过早期的ChatGPT。然而，这看似成功的表象下隐藏着令人担忧的现实。

我曾问闫俊杰是否后悔Glow的产品形态选择，他的思考角度与众不同："Glow停留在娱乐层面，并非产品定位的主动选择，而是被当时的技术水位锁死了边界——是一个模型的技术能力，决定了一个产品的最终形态。"

这一认知被随后的一次事故残酷印证：仅仅因为一次参数调整导致对话智能度轻微下降，三天内活跃用户就跌去了30%。这让他进一步确信，依托技术创新的商业回报不是靠运营、技巧和工程复杂度堆砌的，而是底层技术能力的直接映射。

"追求AGI与追求商业回报不再是两条平行线，而是完全重合的同一条曲线——智能每提升一分，用户的留存时长就增加一分。漂亮的商业数据不再是技术的对立面，而是检验模型是否逼近AGI真相的唯一试卷。"

技术路线的坚守与创新

在闫俊杰的创业哲学中，技术路线的坚守与创新同等重要。面对行业主流选择，MiniMax多次做出看似"逆势"却符合技术本质的决策。

MoE架构：无人区的探索

2023年，当大多数中国AI公司还在研究如何复现LLaMA时，MiniMax决定要做MoE（混合专家模型）。在当时，除了不开源的OpenAI，外界几乎没有成熟参考，这是一片无人区。选择这条路，意味着没有开源社区的作业可抄，一切都要摸黑探索。

代价是惨重的——MiniMax经历了3到4次严重的预训练失败，每一次模型崩了，就意味着两个月的研发周期白费，以及单次高达1500万美金的算力成本打了水漂。

"时代给了搞技术的新环境，这时候最关键的就是不能有'烧钱的羞耻感'，这背后核心是要有信仰和够坚定。如果相信MoE架构的上限更高，为了那个能支撑起大几千亿参数的上限，他需要更纯粹，必须忽略'算小账'。"

全模态战略：之字形路线的坚持

在创业第一天，闫俊杰的动力和决心就来自于一个论断："真正的AGI一定是多模态的。"但对于一个早期资源有限的创业公司，真要坚持文本、语音、视觉三线并行确实少见，因为在旁人眼中这是"兵力分散"。

最终让闫俊杰坚持践行这个论断的，本质上还是基于第一性原理的"纯粹"。他发自内心地相信Scaling Law，相信不同模态在深度学习层面是等价的。即便早期众所周知的算力限制，不能上来就搞"原生多模态"，MiniMax还是坚持把它们作为三个独立模型训练，为最终的融合做准备。

"选择单独的模态聚焦'放卫星'维持'技术形象'，是资源有限条件下的'精神胜利法'。但如果更纯粹一些去看技术竞争的底层，还是需要直面有限资源，但不能放弃解决根本问题。哪怕要走之字形路线，要有点悲壮的长期'追赶'，也没关系。因为这才是那个'更纯粹的选择'。"

冲击与蜕变：2025年的三场硬仗

"我相信对闫俊杰和国内其它很多大模型创业者，2025年都是天崩开局。"2025年春节，DeepSeek R1的突然爆发，给整个国内大模型行业带来了巨大冲击，那种震撼感不亚于当年的ChatGPT，几乎在一段时间内把所有国内大模型创业者都"干自闭了"。

自我反思与战略聚焦

在和老罗的采访中，闫俊杰坦诚回溯了那个时刻："别人的成果突破带来的冲击，直接让他开始自省：是技术路线有问题吗？是我们的团队降低了要求？还是我们搞了其他的杂念，在追求AGI的路上不够坚定了？"

面对国内同级生里出现了得高分的同学，这已经动摇了大家反正都相对落后硅谷的"模糊状态"，这时候必须对于是否要继续海量投入，继续在模型本身较劲追赶甚至寻求超越做选择。

闫俊杰的选择是把自己更彻底地扔进模型技术这个更纯粹的维度去死磕。曾经被外界还有猜测所谓依托模型可用能力"沿途下蛋"做产品工厂，去抓用户提收入，进而支撑估值逻辑的另一种路线，反而明确不存在了。闫俊杰的选择是"华山只有一条路"和"狭路相逢不能躲"。

组织变革：用钱凝聚信心

有意思的是，他还做了一个极其实用、也极其简单有效的决定——在战略上坚决聚焦技术，同时组织上，发更多的钱！用这种最直接实在的方式，让大家把丢掉的信心捡回来，把分散的注意力聚回来。

"还是那个逻辑，忠于目标，做该做的有效动作，不要有'羞耻感'。"

三场硬仗：技术自信的建立

2025年这一年，MiniMax的聚焦和坚定之后，确实连续打赢了三场坚定信心的硬仗：

架构创新的抢跑：2025年1月，当行业还在Transformer的舒适区里内卷时，MiniMax率先发布了国内首个线性注意力架构（Linear Attention）模型MiniMax-Text 01；6月，更是开源了全球首个大规模混合架构推理模型MiniMax-M1。
底层算法的反向输出：在M1模型中，MiniMax还提出了一种全新的强化学习算法CISPO。这不仅仅是一个技术名词，因为随后硅谷巨头Meta发布的ScaleRL训练框架也采用了这一算法。这是中国创业公司在底层算法逻辑上，对国际巨头的一次罕见且硬核的技术输出。
定义交互的新标准：到了10月，随着M2模型的发布，MiniMax首次将Interleaved Thinking（交错思维链）推向了行业标准。这种让模型"像人一样边想边做"的能力，迅速获得了OpenRouter等国外知名开发者平台的支持。随后，不少大模型公司才纷纷跟进。这一次，不再是硅谷定义规则，而是MiniMax在定义什么是"更好的交互"。

这三场战役之后，闫俊杰似乎出现了一种松弛感。这种松弛感可能也是因为他手里拼图的最后一块——文本模型，终于拼上了。

全模态整合与全球竞争格局

在和罗永浩的交流中，闫俊杰盘点了一下MiniMax的家底："两年前，他们的语音模型做到了国际领先；一年前，视频生成模型也冲到了国际前列；连音乐模型现在也是全球三强。唯独语言模型，之前一直还要差点火候。但随着这次新模型M2的发布，MiniMax的语言模型得到了国际开发者的认可，开始被用来做Agent和写代码——这意味着MiniMax补齐了最后一块短板。"

全球技术竞争的清醒认知

他向老罗描绘了一个比外界认知更加残酷的AI技术竞争格局："在美国，真正能坐在大模型牌桌上的其实只有四家公司：OpenAI、Google、Anthropic，以及X.AI。那么他心中MiniMax的位置，则是成为全球极少数具备全模态整合能力的公司。'客观来看，我们可能是中国唯一一家，在文本、视频、语音、音乐全模态上都做到国际领先的公司。'"

中国效率优势的自信

而让他在这个全球技术格局中保持自信的，是中国公司独特的"效率优势"："美国的这四家核心公司，估值和收入可能是中国公司的100倍，但技术领先幅度可能只剩下5%。'中国公司花美国同行1/50的钱，做出来的效果只差5%，而且这个差距还在缩小。'"

闫俊杰相信当全模态的数据和模型完成最终整合时，将通向一个从量变到质变的时刻："我们现在还没有合在一起。我觉得实际上现在是我们最虚弱的时候。"

这句话的坦诚是符合闫俊杰的性格的，但这句"现在是我们最脆弱的时候"在公开访谈里说出来，是不符合他这些年来对外沟通的谨慎风格的。这种变化，只能说明他内心已经完成某种印证"道路自信"的构建。

算力基础设施的前瞻

闫俊杰是一位非常关注底层逻辑的人，但如果有自信，一定是因为一些底层逻辑得到了验证。比如过去两年外界对谷歌一度非常看衰，觉得巨头掉队了。但闫俊杰却一直非常笃定地跟我说："谷歌一定会追上来"，"他们的TPU，非常值得关注进展"。

现在看来他说的是对的，他看透了算力基建对模型迭代的决定性支撑，以及TPU和模型深度共振的意义。今年Google的帝国反击战，确实也和其充分利用了TPU这个阵地，进行了充分发挥优势的技术突破紧密相关。

那么从他这次和老罗的交流细节来看，有理由相信，「天崩开局」的2025，可能也恰恰是闫俊杰自身「道路自信」最终建立的2025。

打破技术理想的「羞耻感」

"曾几何时，在中国做一家真正的技术公司，想很纯粹的依托技术本身形成大的商业价值闭环，是无比艰难的。"过去很多年，所谓技术公司跑到最后，技术本身都往往只是个在最终价值创造中看似不可或缺，但其实也占比很少的东西。

技术理想与商业现实的矛盾

这可能来自于技术本身在特定时期的局限，也一定和我们的特定时期的商业环境有关。但不管怎样，那些出发时候带着技术信仰和热情的创业者们，很多人也被商业世界的调教到要不就是放弃最初的目标，要不就是不得不接受现实，去适配环境，甚至被环境所改造。

由于几乎没有新兴技术创业公司的成功案例，以至于一段时间以来，技术理想这个真正的"核动力"，在一个人或者公司没做出伟大成果之前，都是"不足为外人道也"。甚至是在商业世界你公开说"理想和追求"，都成了有点"羞耻感"的东西，因为很少有人理解和相信，还会觉得你装X。

DJI的启示：纯粹技术成功的可能

但到了今天这个新的技术时代和新的社会环境，情况也应该开始改变了。很多人觉得只有硅谷可以支持"技术理想"，但我觉得不要简单接受结论，而是要拆解为什么是这样，以及改变怎样才能发生。

历史可以告诉未来，但历史不会就是未来。这种改变需要的可能就是一个合适的技术时代和一个足够成功的案例，之后星星之火未必不能燎原。

就像很多人都没意识到，DJI这样的一家公司，在深圳就激励了多少新的硬件创业者敢于鄙视"性价比"，进而敢于要做全球最好的产品，拿到最高的毛利，然后做更伟大的公司。今天这不就是新的常态吗？

技术与商业的统一逻辑

"纯粹"是有意义的，把更高的技术追求和更大的商业价值结果变成一个统一逻辑，开始成为越来越符合时代和环境的技术创业路径。

看了闫俊杰和罗永浩这四个小时的交流，能感受到闫俊杰这几年的从思考到实践的闭环，正在打破了一种隐形的"理想主义羞耻感"，不再把技术追求包裹到某个流行的，为了取悦投资人的商业故事里，而是写下一个自带生命力的、统一的新故事。

它的好处是，你不再对世界有局促和含蓄，而变成了坦荡——只要你自己足够相信这个"大一统"故事，就可以说出来和值得做下去。该羞耻的是那些只看见历史，而不敢下注未来的人，不是这些技术创业者们。

自信与想象力的双重力量

在和老罗的采访中，闫俊杰有一段说得挺好的："如果要反思技术做得好，到底需要什么。他把它总结为两个词，一个是想象力，一个是自信。美国企业在自信方面做得很好，他们敢于讲我要引领这个行业。中国科技企业要更上一个层面，要引领世界，归根结底也需要坦荡的自信。"

世界总有人会相信和支持你，管他是因为发自内心的认同，还是不明就里的FOMO。时代给了技术创业者伟大的机遇，如果本身所有投资人最终都要浪费95%的钱（这就是风险投资投资的本质），就让他们都浪费在"哥伦布"身上，这才更有意义。

闫俊杰打了个样，我希望他继续纵情向前。也希望更多新一代中国技术创业者们，在这一个全新的技术时代，保持纯粹，"心舟飞渡万重山"。

AI技术突破

结语：中国AI创业者的新路径

闫俊杰与MiniMax的故事，不仅仅是一个AI技术极客的创业历程，更是中国科技企业在全球AI竞争中探索独特路径的缩影。从商汤CTO到AI创业先锋，闫俊杰始终保持对技术纯粹的追求；在行业冲击面前，他选择坚守技术路线而非妥协；在全球竞争中，他看到了中国企业的效率优势与独特路径。

更重要的是，闫俊杰正在打破技术理想在商业世界中的"羞耻感"，将技术追求与商业价值统一，为中国技术创业者树立了新标杆。这种转变不仅关乎一家企业的成败，更关乎整个中国科技生态的未来发展方向。

在AI技术日新月异的今天，中国技术创业者正迎来前所未有的机遇。闫俊杰与MiniMax的探索表明，只要保持纯粹的技术追求，坚守正确的技术路线，中国完全有可能在全球AI竞争中走出一条独特而成功的路径。正如闫俊杰所言："中国科技企业要引领世界，归根结底也需要坦荡的自信。"

AI创业新纪元