在科技产业的历史长河中,很少有像当前AI基础设施建设这样的狂热景象。OpenAI近期宣布与甲骨文(Oracle)和软银(SoftBank)合作,共同推进Stargate项目的五大新AI数据中心站点,使该平台规划的总容量接近7吉瓦,未来三年的投资额超过4000亿美元。这一数字令人咋舌,相当于10座核电站的发电量,足以数百万家庭使用。
OpenAI为何需要如此庞大的计算能力?这种看似无限扩张的基础设施建设模式是否可持续?本文将深入探讨这些问题,揭示AI产业中独特的"奥勒博罗斯"现象——一个自我吞噬又自我循环的产业生态。
六大数据中心的宏伟蓝图
周二,OpenAI、甲骨文和软银联合宣布了Stargate项目的五大新美国AI数据中心站点计划,旨在处理ChatGPT每周7亿的用户量,并训练未来的AI模型。虽然批评人士质疑这种投资结构能否自我维持,但公司表示,这一扩张使他们有望在2025年底前确保其1月份宣布的5000亿美元、10吉瓦的完整承诺。
五大新站点将包括三个通过OpenAI和甲骨文合作伙伴关系开发的地点:德克萨斯州的谢尔克福德县、新墨西哥州的唐娜安娜县以及一个未公开的中西部地点。这些站点加上德克萨斯州阿比林旗舰Stargate站点附近600兆瓦的扩建,可提供超过5.5吉瓦的容量,这意味着现场计算机在满负荷运行时最多可消耗55亿瓦的电力。公司预计这些站点将创造超过25,000个现场就业岗位。
其中两个站点将由软银与OpenAI合作开发。俄亥俄州洛兹敦的一个站点已破土动工,有望在明年投入运营。德克萨斯州米拉姆县的第二个站点将与软银集团旗下的SB Energy公司共同开发。这两个站点在未来18个月内可能扩展到1.5吉瓦。
新站点将加入德克萨斯州阿比林的旗舰Stargate校园。甲骨文于6月开始向该站点交付Nvidia硬件,OpenAI已经开始使用该数据中心进行训练(构建新模型)和推理(运行ChatGPT)。
以下是目前公布的Stargate站点概览:
- 阿比林,德克萨斯州:旗舰校园,已配备Nvidia GB200机架,另有计划中的600兆瓦扩建
- 谢尔克福德县,德克萨斯州:新的甲骨文开发站点
- 唐娜安娜县,新墨西哥州:新的甲骨文开发站点
- 中西部地点(未公开):新的甲骨文开发站点
- 洛兹敦,俄亥俄州:新的软银开发站点,明年运营
- 米拉姆县,德克萨斯州:新的软银/SB能源站点
OpenAI和甲骨文在7月达成协议,开发最多4.5吉瓦的额外Stargate容量,这是两家公司五年内价值超过3000亿美元的合作伙伴关系。公司表示,他们在1月启动的全美流程中审查了来自30多个州的300多个提案后,选择了这五个新站点。
OpenAI为何需要庞大计算能力
OpenAI及其合作伙伴抛出的数字——10吉瓦、5000亿美元——对于不熟悉互联网基础设施规模的普通人来说,规模令人震惊和难以理解。例如,10吉瓦相当于大约10座核电站的发电量,足以为数百万家庭供电。但OpenAI真的需要这些数据中心做什么呢?这一切都源于OpenAI首席执行官Sam Altman为数十亿人提供智能即服务的梦想。
"只有构建支撑AI的计算能力,AI才能实现其承诺,"OpenAI首席执行官Sam Altman在公告中表示。"这种计算能力是确保每个人都能从AI中受益并释放未来突破的关键。"
Altman的言论反映了他对未来AI系统有用性的乐观态度,但尽管有人警告AI泡沫并批评底层技术,目前生成式AI容量仍存在实际未满足的需求。ChatGPT每周有7亿活跃用户,是美国人口的两倍多,他们经常使用AI助手开发软件、提供个人建议以及撰写或编辑信函和报告。虽然输出有时可能不完美,但人们显然仍然需要它们。
OpenAI经常面临严重的容量限制来产生这些输出,这导致对其用户可以查询聊天机器人的频率进行限制。ChatGPT Plus订阅者经常遇到这些使用限制,尤其是在使用图像生成或模拟推理模型等计算密集型功能时。作为未来订阅入口的免费用户面临更严格的限制。OpenAI缺乏满足当前需求的计算能力,更不用说为未来增长留出空间了。
训练下一代AI模型使问题更加复杂。除了运行支持ChatGPT的现有AI模型外,OpenAI还在后台不断开发新技术。这是一个需要数千个专用芯片连续运行数月的过程。
循环投资的疑问
OpenAI、甲骨文和Nvidia之间交易的财务结构引起了行业观察家的审视。本周早些时候,Nvidia宣布在OpenAI部署Nvidia系统时将投资高达1000亿美元。正如Requisite Capital Management的Bryn Talkington告诉CNBC的那样:"Nvidia向OpenAI投资1000亿美元,然后OpenAI再将其返还给Nvidia。"
甲骨文的安排遵循了类似的模式,据报道这是一项每年300亿美元的协议,甲骨文建设OpenAI付费使用的设施。这种涉及基础设施提供商投资于AI公司而成为其最大客户的循环流动,引发了人们质疑这些代表真正的经济投资还是精心设计的会计操作。
这些安排正变得日益复杂。《信息》本周报道,Nvidia正在讨论向OpenAI租赁其芯片,而不是直接出售。根据这种结构,Nvidia将创建一个单独实体来购买自己的GPU,然后将其租赁给OpenAI,这为这种复杂的关系又增加了一层循环财务工程。
"Nvidia培育公司并给他们保证合同,以便他们能够举债购买Nvidia的GPU,即使这些公司严重亏损并最终因缺乏真正需求而消亡,"科技评论家Ed Zitron上周在Bluesky上写道,他指的是CoreWeave和Lambda Labs等公司,这些公司已筹集数十亿美元债务,部分基于Nvidia自身的合同购买Nvidia GPU。这种模式反映了OpenAI与甲骨文和Nvidia的安排。
泡沫破裂后的困境
那么,如果泡沫破裂会发生什么?就连Altman本人上个月也警告称,在他所谓的AI泡沫中,"有人将损失巨额金钱"。如果AI需求无法满足这些天文数字般的预测,建立在物理土壤上的大型数据中心不会 simply 消失。当2001年互联网泡沫破裂时,繁荣时期铺设的光纤电缆最终在互联网需求跟及时找到了用途。同样,这些设施可能会转向云服务、科学计算或其他工作负载,但可能会给支付AI繁荣价格的投资者带来巨大损失。
AI基础设施的独特生态
AI基础设施建设的狂热与以往的技术热潮有着本质区别。与互联网泡沫时期不同,AI基础设施不仅仅是一种投机,而是基于实际存在的应用需求。ChatGPT每周7亿用户的活跃使用证明了这一点。然而,这种需求与基础设施投资规模之间的巨大差距,创造了一种独特的产业生态。
在这个生态中,芯片制造商、基础设施提供商和AI应用开发商形成了一个相互依赖的循环。Nvidia向OpenAI投资,OpenAI又向Nvidia支付巨额费用用于购买芯片;甲骨文为OpenAI建设数据中心,OpenAI又向甲骨文支付使用费。这种循环投资模式虽然看起来奇怪,但在某种程度上促进了整个AI生态系统的发展。
技术需求与投资规模的匹配问题
从技术角度看,AI模型训练确实需要巨大的计算资源。以GPT-4为例,其训练过程需要数千个GPU连续运行数月,消耗的电力相当于一个小城镇。随着模型规模不断扩大,对计算资源的需求呈指数级增长。然而,这种增长是否能够持续,以及投资规模是否与实际需求匹配,仍然是一个悬而未决的问题。
OpenAI面临的挑战在于,它需要在满足当前用户需求和为未来模型预留资源之间找到平衡。一方面,现有的计算资源已经无法满足用户需求,导致服务限制和用户体验下降;另一方面,过度投资又可能导致资源闲置和财务压力。
产业转型的可能性
即使AI需求不及预期,这些大型数据中心也不会完全失去价值。它们可以转型用于其他计算密集型任务,如科学计算、气候模拟、药物研发等。事实上,许多AI基础设施提供商已经在探索多元化的应用场景,以降低对单一市场的依赖。
此外,随着技术的进步,计算效率的提升可能会降低对硬件数量的需求。更高效的算法、模型压缩技术以及专用芯片的发展,都有可能在未来减少对计算资源的绝对需求,从而缓解当前的投资热潮。
全球竞争与地缘政治因素
AI基础设施的竞赛不仅是商业竞争,也是国家之间的战略竞争。美国、中国、欧盟等主要经济体都在大力投资AI基础设施,以争取在未来的技术竞争中占据优势。这种地缘政治因素进一步加剧了AI基础设施建设的狂热。
OpenAI选择在美国本土建设数据中心,部分原因是为了符合数据安全法规,同时也是为了获得政府的支持。这种政治因素在AI基础设施布局中扮演着越来越重要的角色。
未来展望
AI基础设施建设的狂热可能会持续一段时间,但最终会趋于理性。随着市场的成熟和技术的进步,投资规模可能会更加务实,与实际需求更加匹配。在这个过程中,那些能够真正理解市场需求、有效管理资源的企业将脱颖而出。
对于OpenAI来说,挑战在于如何在保持技术创新的同时,确保财务可持续性。这可能需要探索新的商业模式,如AI即服务、行业定制解决方案等,以拓宽收入来源,减少对单一产品的依赖。
结语
OpenAI的六大数据中心计划代表了AI产业发展的一个重要阶段,它既反映了AI技术的巨大潜力,也暴露了当前产业生态中的问题。循环投资模式虽然在短期内促进了产业发展,但长期来看,需要更加健康和可持续的商业模式来支撑AI的持续发展。
在AI基础设施建设的狂热中,我们需要保持清醒的头脑,既要看到技术创新带来的机遇,也要警惕过度投资可能带来的风险。只有这样,AI才能真正实现其改变世界的承诺,而不是成为又一个被遗忘的技术泡沫。