智能增长的核心命题
2024年底的AI领域弥漫着一种微妙的焦虑情绪。从ChatGPT横空出世至今,整个行业似乎都在潜藏着一个无形的"幽灵"——这就是Scaling Law。然而,当GPT-5、Gemini 3等顶级模型接连登场后,越来越多的从业者开始质疑:这个曾经支撑整个AI繁荣的 Scaling Law,是否正在走向失效?
这种担忧并非空穴来风。就连OpenAI联合创始人Ilya Sutskever也公开表示,单纯堆砌预训练算力的时代正在进入平台期,智能的增长需要转向全新的"研究时代"。而Meta首席科学家Yann LeCun则一如既往直言,当前大语言模型无论怎么 Scaling都无法触达真正的AGI。更令人深思的是,Sam Altman在公开场合也曾含蓄承认,仅仅靠更多GPU已经无法换回同比例的智能跃迁。
当全行业都在为"数据枯竭"和"算力报酬递减"头疼时,一个更为本质的问题浮现出来:算力还在持续增长,为什么智能的跃迁似乎变慢了?

算力转化的本质逻辑
新加坡国立大学校长青年教授尤洋在《智能增长的瓶颈》一文中提出了一个非常独到的视角:过去10年,AI大模型的技术本质,是把电力能源通过计算过程转化为可复用的智能。这个观点触及了当前困境的核心——问题可能不在于算力本身,而在于我们是否真正理解如何将算力高效地转化为智能。
在尤洋看来,智能的核心体现为模型的预测与创作能力。过去十年间,三个关键共识支撑了AI的快速发展:预训练是智能的主要来源,Next-Token Prediction是一个极其成功的Loss设计,以及Transformer架构的胜出本质上是因为它更像GPU——高度并行、计算密集、通信可控。

这三点共同作用,使得从GPT-1、BERT、GPT-2、GPT-3,到ChatGPT与Gemini,大模型得以在十余年间持续放大算力投入,并将其稳定转化为可感知的智能提升。然而,尤洋敏锐地指出,当前遇到的真正瓶颈并非"算力不够",而是"我们现在的范式无法充分利用持续增长的算力"。
效率与智能上限的本质区别
在深入分析瓶颈之前,尤洋首先明确区分了两类经常被混淆的进展:效率提升和智能上限提升。前者指的是用更少参数、更低算力达到相同效果,如剪枝、蒸馏、低精度、Mamba等技术;后者则是在相同的浮点计算总量约束下,训练出能力更强、泛化性更好的模型。

这两类技术虽然都重要,但它们决定的是完全不同的技术曲线。效率提升对于工程落地和规模化部署至关重要,但并不直接决定智能的上限。而智能上限提升才是决定AI是否能够持续向AGI迈进的关键指标。当前行业面临的困境在于,我们过于关注效率优化,却相对忽视了如何突破智能上限。
Transformer架构的深层逻辑
为什么Transformer能够在众多架构中脱颖而出?尤洋给出了一个非常深刻的解释:Transformer并非"更像人脑",而是"更像GPU"。本质上,Transformer是一个被神经网络外壳包裹起来的并行计算机,它的并行计算特性完美匹配了GPU的并行计算单元。

英伟达GPU过去几年最重要的路线是在同样的物理空间里堆更多HBM(高带宽内存)。为了掩盖内存访问延迟,GPU只能依赖超大的Batch Size和大规模并行来处理数据。因此,英伟达对算法层和软件层的要求非常明确:必须提供足够大的Batch Size或并行度。
Transformer架构恰恰满足了这一要求:模型的每层参数量越多,并行度就越高;不同Token可以同时计算,序列长度越长,并行度就越高。这种"一箭双雕"的优势,使得Transformer能够最充分地利用GPU的并行计算能力,从而在同等算力条件下获得更高的智能提升。
Next-Token Prediction的成功密码
除了架构层面的优势,OpenAI坚持的Next-Token Prediction Loss函数也是成功的关键因素。这个Loss函数最小化了人类的干预,给了AI大模型近乎无限的训练数据。相比之下,BERT的完形填空和Next Sentence Prediction虽然理论上也能提供近乎无限的数据,但在实践中效果明显不如Next-Token Prediction。

尤洋指出,Next-Token Prediction实际上是"预测未来",而BERT的完形填空更多是"解释过去"。这就像让一个足球专家根据历史数据和当天的比赛结果去解释合理性,几乎所有专家都能做到;但如果让专家去预测每一场比赛的精准比分,他们会经常出错。预测的难度远高于解释,而这正是智能的核心能力体现。
回顾2018年的情形,BERT在媒体上的影响力几乎完全碾压了GPT,且当时OpenAI的研发团队体量与Google相比微不足道。但OpenAI团队没有放弃Next-Token Prediction,也没有转向类BERT的训练方式。这种坚持最终被证明是正确的,真理需要时间检验。
未来突破的四大方向
面对当前瓶颈,尤洋提出的解决方案非常明确:不是"省算力",而是"吃下更多算力"。未来需要在以下几个方面实现突破:
更高数值精度的探索
当前从FP16到FP32甚至FP64,模型智能并未出现明显跃升。但这可能是"未被充分探索"的方向,而非被证伪。理论上,更高精度应当带来更可靠的计算结果,这一点在传统科学计算中早已得到验证。虽然这个观点可能与主流机器学习共识并不一致,而且真正发生可能需要很长时间,但从本质上看,智能仍然需要更精准的计算。
高阶优化器的应用
Google的朋友告诉尤洋,他们有时候已经不用类Adam优化器,而是用更高阶的优化器在训练模型。高阶优化器理论上能在学习过程中给模型更好的指导,算出更好的梯度,这是模型智能提升的本质。当然,高阶优化器的全面替代可能需要很长的时间。
扩展性更好的模型架构
我们需要一种扩展性更好的整合和利用算力的方式。这里需要特别注意:优化效率不一定能提升智能。比如Mamba出来的时候,宣传重点是吞吐量的提升,用更小的模型获得同水平的智能。但真正的挑战是:在最健全的AI基础设施上,用最大的可接受成本,能否训出更好的模型,获得更高的智能。
更充分的训练和搜索
迫于成本压力,我们今天其实并没有对AI模型进行深度优化,甚至没有深度搜索超参数。更多的Epoch代表更多的浮点数、更多的能源。我们需要找到方法去"吃下"更多能源,并转化出更高智能。当然,明知无效却生硬地跑更多Epoch其实是方法不对,关键在于找到参数量和数据量的最佳匹配关系。

智能增长的底层逻辑
智能增长归根到底还是算力利用问题。假定算力无限大,比如一个集群的算力达到今天的万亿倍,可能我们会发现更简单的模型结构比Transformer和Next-Token Prediction的扩展性更好。从SVM到CNN、LSTM、BERT、GPT、MoE,我们始终在寻找能更高效利用算力且具备更好扩展性的方法。
这个过程中,核心原因是问题的规模在不断扩大。我们在AI时代到来之前便已实现天气预报,然而至今仍未能攻克地震预报,尽管两者本质上都是针对地球数据的研究。究其原因,地下结构涉及比大气更加错综复杂、且变量规模呈指数级庞大的动态多模态数据。
这种传统计算模式难以驾驭的高维复杂性,恰恰是未来AI技术大有可为的机遇所在。我们有信心未来会不断找到更高效的算力使用方式,虽然过程中可能会有很多困难和低潮,但大趋势不可阻挡。
行业发展的关键节点
如果说过去十年AI的核心问题是"如何获得更多算力",那么接下来一个阶段,问题可能变成:我们是否真的知道如何把这些算力变成智能。这个转变不仅仅是技术层面的,更是思维层面的。
当前行业存在一个普遍误区:把"效率优化技术"和"智能提升技术"混淆了。比如,一个新的架构达到跟GPT-5类似的效果,只需要20%的参数量或计算量,这其实更多是落地或商业化问题;智能的终极问题是:使用同样的浮点数计算次数,能否获得一个更好的模型。
浮点数计算次数才是算力最基本、最本质的计量单位。从这个角度看,低精度训练、剪枝、量化、蒸馏等技术对大规模落地AI非常重要,但它们跟提升智能上限无关。智能的突破需要回到最本质的问题:如何更有效地将算力转化为智能。
基础设施层面的技术目标
从硬件层来看,我们需要持续产生更大的绝对算力,这不一定局限于单位芯片上的算力提升。即便单位芯片上的算力没有大幅度提升,我们通过集群的方式也能构建更大的绝对算力。这里需要平衡的是:聚集芯片带来的性能增长,要高于"芯片或服务器之间通信增长带来的负担"。
所以,具体的硬指标就是:增长或至少维持住"计算开销/通信开销"这个比值。这是整个AI基础设施层最核心的技术目标。要想实现这个目标,我们需要扩展性更好的并行计算技术,无论是软件还是硬件。
Richard Sutton教授的一句话很好地总结了人工智能70年研究留给我们最大的经验教训:依托计算能力的通用方法才是最终的赢家,且具备压倒性的优势。这个经验教训,在当前的瓶颈期显得尤为重要。
我们正在见证AI发展的一个关键转折点。这个转折点不是AI发展的终点,而是新阶段的起点。在这个阶段,我们需要从盲目追求算力规模,转向更加关注算力转化的效率和质量。这不仅是技术上的挑战,更是思维上的转变,需要整个行业共同面对和探索。










