在人工智能领域,一场关于算力的竞赛正在悄然上演。SemiAnalysis分析师Dylan Patel和Daniel Nishball的最新爆料,再次将业界的目光聚焦于算力之争的核心——谷歌与OpenAI。令人震惊的是,谷歌在下一代大模型Gemini上的算力投入,竟然达到了GPT-4的五倍之巨!这不仅引发了AI社区的广泛关注,更预示着人工智能发展的新格局。
早在OpenAI的GPT-4问世之前,谷歌的Gemini项目就已备受瞩目。如今,Gemini已开始在全新的TPUv5 Pod上进行训练,其算力高达~1e26 FLOPS。这一数字,是训练GPT-4所需算力的五倍。凭借TPUv5的强大性能,谷歌已然成为算力领域的领头羊。据称,谷歌拥有的TPUv5数量,甚至超过了OpenAI、Meta、CoreWeave、甲骨文和亚马逊所拥有的GPU总和。尽管TPUv5在单芯片性能上可能不及英伟达的H100,但谷歌凭借其高效且庞大的基础设施,构筑了其在算力上的核心优势。
然而,对于这一爆料,OpenAI的Sam Altman却表达了不同的看法,他认为这可能是谷歌的内部营销或招聘策略。但无论真相如何,Dylan Patel此前的爆料都得到了验证,并在业内引发了巨大反响。从谷歌内部文件泄露事件,到GPT-4的架构和参数等内幕消息的曝光,都证明了Patel爆料的准确性和影响力。
那么,这次的爆料又将带来哪些重磅信息?让我们深入剖析。
谷歌的觉醒:从沉睡的巨人到算力王者
Transformer模型的作者之一Noam Shazeer曾撰文预言,LLM将日益融入我们的生活,并消耗全球的算力。然而,这一具有前瞻性的观点却未能引起谷歌决策者的足够重视。如今,谷歌手握算力王国的钥匙,昔日沉睡的巨人已经苏醒。其迭代速度之快,令人瞩目。预计到2023年底,谷歌的算力将达到GPT-4预训练FLOPS的五倍,而到明年年底,这一数字甚至可能飙升至100倍。
问题在于,谷歌能否在不牺牲创造力、不改变现有商业模式的前提下,继续深耕这一领域?这仍然是一个未知数。
GPU:AI时代的硬通货,资源分配不均的现实
在AI时代,英伟达的GPU成为了炙手可热的硬通货。OpenAI、谷歌、Anthropic、Inflection、X、Meta等巨头企业,拥有超过20万块A100/H100芯片,为研究人员提供了充足的计算资源。与此同时,一些个人研究者也拥有100到1000块GPU,可以进行一些小型项目研究。
然而,大量的初创公司和开源研究者却面临着GPU短缺的困境。由于缺乏足够的GPU资源,他们只能将时间和精力投入到一些无关紧要的项目中,或者在更大的模型上微调一些小型模型。他们缺乏高质量的预训练数据集和IFT数据,难以在实际工作负载中改进模型。
OpenAI联合创始人Andrej Karpathy曾感慨道:“谁将获得多少H100,何时获得H100,都是硅谷现在的顶级八卦。”
到2024年底,GPU的总数可能会达到十万块。在硅谷,拥有多少GPU已经成为了顶级机器学习研究者们炫耀的资本。这场竞赛已经公开化,谁拥有更多的GPU,就能吸引更多的大牛研究员加入。Meta甚至将“拥有世界上第二多的H100 GPU”作为招聘策略。
GPU的高效利用至关重要,许多“GPU穷人”却忽略了这一点。他们不注重规模效应的效率,也没有充分利用时间。明年,随着350万H100的涌入,“GPU穷人”将与商业化彻底隔绝,只能使用游戏用GPU进行学习和实验。
大多数“GPU穷人”仍然在使用密集模型,这主要归功于Meta的Llama系列模型。如果没有扎克伯格的慷慨,开源项目的情况可能会更糟。如果他们真的关心效率,特别是客户端的效率,他们会选择MoE这样的稀疏模型架构,并在更大的数据集上进行训练,采用推测解码等技术。
处于劣势的公司应该专注于提高模型性能或减轻token到token延迟,提高计算和内存容量要求,减少内存带宽,这些才是边缘效应所需要的。他们应该专注于在共享基础设施上高效地提供多个微调模型,而不必为小批量模型付出高昂的成本代价。
然而,事实却恰恰相反,他们过于关注内存容量限制或量化程度太高,却对模型实际质量的下降视而不见。总的来说,现在的大模型排行榜已经完全乱套了。虽然闭源社区还有很多人在努力改进这一点,但这种开放基准毫无意义。出于某种原因,人们对LLM排行榜有一种病态的痴迷,并且为一些无用的模型起了一堆愚蠢的名字,比如Platypus等等。
在未来,开源工作应该转向评估、推测解码、MoE、开放IFT数据,以及用超过10万亿个token清洗预训练数据。否则,开源社区根本无法与商业巨头竞争。
目前,大模型之战的世界版图已经显现:美国和中国持续领先,欧洲由于缺乏大笔投资和GPU短缺而明显落后,即使有政府支持的超算也无济于事。同时,多个中东国家也在加大投资,为AI建设大规模基础设施。
缺乏GPU的不仅仅是一些小初创企业。即使是HuggingFace、Databricks(MosaicML)以及Together等知名AI公司,也仍然属于“GPU贫困人群”。事实上,仅从每块GPU所对应的世界TOP级研究者,或者每块GPU所对应的潜在客户来看,他们或许是世界上最缺乏GPU的群体。
虽然拥有世界一流的研究者,但所有人都只能在能力低几个数量级的系统上工作。虽然他们获得了大量融资,买入了数千块H100,但这并不足以让他们抢占大部分市场。
依赖竞品:AI算力背后的隐忧
英伟达在内部的各种超级计算机中拥有比其他公司多出数倍的GPU。DGX Cloud提供了预训练模型、数据处理框架、向量数据库和个性化、优化推理引擎、API以及英伟达专家的支持,帮助企业定制用例并调整模型。
如今,这项服务已经吸引了来自SaaS、保险、制造、制药、生产力软件和汽车等垂直行业的多家大型企业。即便是不算上那些未公开的合作伙伴,仅仅是由安进(Amgen)、Adobe、CCC、ServiceNow、埃森哲(Accenture)、阿斯利康(AstraZeneca)、盖蒂图片社(Getty Images)、Shutterstock、晨星(Morningstar)、Evozyne、Insilico Medicine、Quantiphi、InstaDeep、牛津纳米孔(Oxford Nanopore)、Peptone、Relation Therapeutics、ALCHEMAB Therapeutics和Runway等巨头组成的名单,就已经足够震撼了。
考虑到云计算的支出和内部超级计算机的建设规模,企业从英伟达购买的似乎比HuggingFace、Together和Databricks所能够提供的服务加起来还要多。
HuggingFace作为行业中最有影响力的公司之一,需要利用这一点来获得巨额投资,建立更多的模型、定制和推理能力。但在最近一轮的融资中,过高的估值让他们并没有得到所需的金额。Databricks虽然可以凭借着数据和企业关系迎头赶上,但问题在于,如果想要为超过7,000个客户提供服务,就必须将支出增加数倍。
不幸的是,Databricks无法用股票来购买GPU。他们需要通过即将开始的私募/IPO来进行大规模融资,并进一步用这些现金来加倍投资于硬件。从经济学的角度来看有些奇怪,因为他们必须先建设,然后才能引来客户,而英伟达同样也在为他们的服务一掷千金。不过,这也是参与竞争的前提条件。
这里的关键在于,Databricks、HuggingFace和Together明显落后于他们的主要竞争对手,而后者又恰好是他们几乎所有计算资源的来源。也就是说,从Meta到微软,再到初创公司,实际上所有人都只是在充实英伟达的银行账户。
那么,有谁能把我们从英伟达的“奴役”中拯救出来吗?
是的,有一个潜在的“救世主”——谷歌。
谷歌:算力之巅,OpenAI难及项背
尽管内部也在使用GPU,但谷歌手中握有其他“王牌”。其中,最令人期待的是谷歌下一代大模型Gemini,以及下一个正在训练的迭代版本,都得到了谷歌无比高效的基础设施的加持。
早在2006年,谷歌就开始提出了构建人工智能专用基础设施的想法,并于2013年将这一计划推向高潮。他们意识到,如果想大规模部署人工智能,就必须将数据中心的数量增加一倍。因此,谷歌开始为3年后能够投入生产的TPU芯片做准备。
最著名的项目Nitro Program在13年发起,专注于开发芯片以优化通用CPU计算和存储。主要的目标是重新思考服务器的芯片设计,让其更适合谷歌的人工智能计算工作负载。自2016年以来,谷歌已经构建了6种不同的AI芯片,TPU、TPUv2、TPUv3、TPUv4i、TPUv4和TPUv5。
谷歌主要设计这些芯片,并与Broadcom进行了不同数量的中后端协作,然后由台积电生产。TPUv2之后,这些芯片还采用了三星和SK海力士的HBM内存。
在介绍Gemini和谷歌的云业务之前,爆料者分享了关于谷歌疯狂扩张算力的一些数据——各季度新增加的高级芯片总数。对于OpenAI来说,他们拥有的总GPU数量将在2年内增加4倍。而对于谷歌来说,所有人都忽视了,谷歌拥有TPUv4(PuVerAsh)、TPUv4 lite,以及内部使用的GPU的整个系列。此外,TPUv5 lite没有在这里算进去,尽管它可能是推理较小语言模型的主力。下图表中的增长,只有TPUv5(ViperAsh)可视化。
即使对他们的能力给予充分肯定,谷歌的算力也足以让所有人都感到震惊。实际上,谷歌拥有的TPUv5比OpenAI、Meta、CoreWeave、甲骨文和亚马逊拥有的GPU总和还要多。并且,谷歌能够将这些能力的很大一部分出租给各种初创公司。
当然,就每个芯片方面的性能来说,TPUv5与H100相比有显著的差距。
撇开这点不说,OpenAI的算力只是谷歌的一小部分。与此同时,TPUv5的构建能够大大提升训练和推理能力。此外,谷歌全新架构的多模态大模型Gemini,一直在以令人难以置信的速度迭代。据称,Gemini可以访问多个TPU pod集群,具体来讲是在7+7 pods上进行训练。
爆料者表示,初代的Gemini应该是在TPUv4上训练的,并且这些pod并没有集成最大的芯片数——4096个芯片,而是使用了较少的芯片数量,以保证芯片的可靠性和热插拔。如果所有14个pod都在合理的掩模场利用率(MFU)下使用了约100天,那么训练Gemini的硬件FLOPS将达到超过1e26。
作为参考,爆料者在上次“GPT-4架构”文章中曾详细介绍了GPT-4模型的FLOPS比2e25稍高一点。而谷歌模型FLOPS利用率在TPUv4上非常好,即使在大规模训练中,也就是Gemini的第一次迭代,也远远高于GPT-4。尤其是,就模型架构优越方面,如增强多模态,更是如此。
真正令人震惊的是Gemini的下一次迭代,它已经开始在基于TPUv5的pod上进行训练,算力高达1e26 FLOPS,这比训练GPT-4要大5倍。据称,第一个在TPUv5上训练的Gemini在数据方面存在一些问题,所以不确定谷歌是否会发布。这个1e26模型可能就是,公开称为Gemini的模型。
再回看上面的图表,这不是谷歌的最终形态。比赛已经开始了,而谷歌有着巨大的优势。如果他们能够集中精力并付诸实施,至少在训练前的计算规模扩展和实验速度方面,他们终将胜出。
他们可以拥有多个比OpenAI最强大的集群还要强大的集群。谷歌已经摸索了一次,还会再来一次吗?当前,谷歌的基础设施不仅满足内部需求,Anthopic等前沿模型公司和一些全球最大的公司,也将访问TPUv5进行内部模型的训练和推理。
谷歌将TPU迁移到云业务部门,并重新树立了商业意识,这让他们赢得了一些大公司的青睐,果断投入战斗。未来几个月,你将会看到谷歌的胜利。这些被推销的公司,有的会为它的TPU买单。