AI基础设施的吞噬者:OpenAI为何需要六座巨型数据中心?

1

OpenAI、Oracle和软银近日宣布了五座新美国AI数据中心的建设计划,作为其联合AI基础设施项目Stargate的一部分。这一扩张将使平台总规划容量接近7吉瓦,并在未来三年内获得超过4000亿美元的投资。这一庞大建设旨在应对ChatGPT每周7亿用户的需求,并训练未来的AI模型,尽管批评者质疑这种投资结构是否能够持续自我维持。

六座数据中心的扩张蓝图

这五座新数据中心包括三个通过OpenAI与Oracle合作开发的地点:德克萨斯州的Shackelford县、新墨西哥州的Doña Ana县以及一个未公开的中西部地点。这些站点加上德克萨斯州Abilene旗舰Stargate站点附近的600兆瓦扩建项目,可提供超过5.5吉瓦的容量,这意味着现场计算机在满负荷运行时能够消耗高达55亿瓦的电力。这些公司预计这些站点将创造超过25,000个现场工作岗位。

另外两个站点将通过软银与OpenAI的合作伙伴关系开发。俄亥俄州Lordstown的一个站点软银已破土动工,有望在明年投入运营。德克萨斯州Milam县的第二个站点将与软银集团旗下的SB Energy共同开发。这两个站点在未来18个月内可能扩展至1.5吉瓦。

这些新站点将与德克萨斯州Abilene的旗舰Stargate校区一起组成庞大的数据中心网络。Oracle从6月开始向该站点交付Nvidia硬件,OpenAI已经开始使用该数据中心进行训练(构建新模型)和推理(运行ChatGPT)。

以下是迄今为止宣布的Stargate站点概览:

  • Abilene, Texas: 旗舰校区,已配备Nvidia GB200机架,另有计划中的600兆瓦扩建
  • Shackelford County, Texas: 新的Oracle开发站点
  • Doña Ana County, New Mexico: 新的Oracle开发站点
  • 中西部地点(未公开):新的Oracle开发站点
  • Lordstown, Ohio: 新的软银开发站点,明年运营
  • Milam County, Texas: 新的软银/SB Energy站点

OpenAI对庞大计算能力的需求

OpenAI及其合作伙伴提出的数字——10吉瓦、5000亿美元——对于不熟悉互联网基础设施规模的普通人来说,规模令人震惊且难以理解。例如,10吉瓦相当于大约10座核电站的发电量,足以为数百万家庭供电。但OpenAI真的需要这些数据中心做什么?这一切都源于OpenAI首席执行官Sam Altman为数十亿人提供智能即服务的梦想。

"AI只有在构建算力的情况下才能实现其承诺,"OpenAI首席执行官Sam Altman在公告中表示。"这种算力是确保每个人都能从AI中受益并解锁未来突破的关键。"

Altman的言论反映了对未来AI系统实用性的乐观态度,但尽管存在AI泡沫警告和对底层技术的批评,目前生成式AI容量仍有未满足的实际需求。ChatGPT每周有7亿活跃用户,是美国人口的两倍多,他们经常使用AI助手开发软件、提供个人建议以及撰写或编辑信函和报告。尽管输出有时可能不完美,但人们显然仍然需要它们。

OpenAI经常面临严重的容量限制来产生这些输出,这导致对其用户查询聊天机器人的频率进行限制。ChatGPT Plus订阅用户经常遇到这些使用限制,特别是在使用图像生成或模拟推理模型等计算密集型功能时。作为未来订阅入口的免费用户,则面临更严格的限制。OpenAI缺乏满足当前需求的计算能力,更不用说未来增长的空间了。

训练下一代AI模型加剧了这一问题。除了运行支持ChatGPT等现有AI模型外,OpenAI还在后台不断开发新技术。这个过程需要数千个专用芯片连续运行数月。

循环投资的质疑

OpenAI、Oracle和Nvidia之间交易的财务结构引起了行业观察者的审视。本周早些时候,Nvidia宣布将投资高达1000亿美元,因为OpenAI部署Nvidia系统。正如Requisite Capital Management的Bryn Talkington对CNBC所说:"Nvidia向OpenAI投资1000亿美元,然后OpenAI又将其返还给Nvidia。"

Oracle的安排遵循类似模式,据报道是一项每年300亿美元的协议,Oracle建设OpenAI付费使用的设施。这种循环流动——基础设施提供商投资于AI公司,而这些公司成为他们最大的客户——引发了人们对这些代表真正的经济投资还是精心设计的会计操作的质疑。

这些安排正变得更加复杂。本周,《信息》报道Nvidia正在讨论向OpenAI租赁芯片,而不是直接出售。根据这种结构,Nvidia将创建一个独立实体购买自己的GPU,然后将其租赁给OpenAI,这为这种复杂的关系又增加了一层循环金融工程。

"Nvidia为这些公司提供种子资金,并给予他们必要的保证合同,以便他们能够举债购买Nvidia的GPU,即使这些公司严重亏损,并最终因缺乏任何真正的需求而消亡,"技术评论家Ed Zitron上周在Bluesky上关于AI基础设施投资的不寻常流动写道。Zitron指的是CoreWeave和Lambda Labs等公司,这些公司基于部分来自Nvidia自身的合同,筹集了数十亿美元债务来购买Nvidia GPU。这种模式反映了OpenAI与Oracle和Nvidia的安排。

AI泡沫破裂后的挑战

那么,如果泡沫破裂会发生什么?即使是Altman本人上个月也警告称,在他称之为AI泡沫中,"有人将损失巨额金钱"。如果AI需求无法满足这些天文数字般的预测,建立在物理土壤上的大型数据中心不会简单地消失。当2001年互联网泡沫破裂时,在繁荣时期铺设的光纤电缆最终在互联网需求赶上时找到了用途。同样,这些设施可能会转向云服务、科学计算或其他工作负载,但对于支付AI繁荣价格的投资者来说,这可能意味着巨大损失。

数据中心建设的经济影响

这些巨型数据中心的建设不仅是技术竞赛的结果,也是经济竞争的前沿。每个站点都代表着数千个就业机会和数十亿美元的经济投资。例如,仅Abilene旗舰校区就创造了大量就业机会,并带动了当地经济的发展。

然而,这种大规模建设也带来了环境挑战。数据中心是能源密集型设施,需要大量电力来运行。虽然这些公司正在努力使用可再生能源,但如此大规模的扩张仍将对电网和环境造成压力。

技术创新与算力需求

OpenAI对算力的需求反映了AI技术的快速发展。随着模型规模的扩大和复杂性的增加,对计算资源的需求呈指数级增长。例如,训练GPT-4模型需要数千个GPU数周时间,而未来的模型可能需要更多资源。

这种需求推动了芯片技术的创新。Nvidia等公司正在开发更高效、更强大的GPU,以满足AI训练和推理的需求。同时,新的架构和算法也在不断涌现,旨在提高计算效率,减少能源消耗。

全球AI基础设施竞赛

OpenAI的扩张并非孤立现象,而是全球AI基础设施竞赛的一部分。各国政府和企业都在竞相建设数据中心和计算设施,以在AI领域保持竞争优势。

在美国,除了Stargate项目外,还有其他大型AI基础设施计划正在推进。在中国,政府支持的AI项目也在建设大型计算中心。在欧洲,各国正在合作开发AI基础设施,以减少对美国技术的依赖。

这种全球竞赛不仅推动了技术创新,也带来了地缘政治的复杂性。AI基础设施已成为国家战略资源,其建设和运营受到严格监管和审查。

数据中心与AI发展的未来

随着AI技术的不断进步,数据中心将继续扮演关键角色。未来的数据中心将更加高效、可持续,并能够支持更复杂的AI模型。

边缘计算和分布式数据中心的发展可能会改变传统的集中式计算模式,使AI计算更加接近数据源,减少延迟,提高效率。同时,量子计算等新兴技术可能会彻底改变AI计算的范式。

结论

OpenAI建设六座巨型数据中心的计划反映了AI技术的快速发展和对算力的迫切需求。这一扩张不仅是为了满足当前ChatGPT用户的需求,也是为了支持未来更先进的AI模型的训练和部署。

然而,这种大规模投资也带来了质疑和挑战。循环投资模式、环境问题以及可能的AI泡沫破裂风险都需要认真考虑。尽管如此,AI基础设施的建设仍将继续,因为算力是AI发展的基础,而AI技术的发展又将推动对更强大计算能力的需求。

在这个循环中,技术创新、经济利益和环境责任需要平衡,以确保AI基础设施的可持续发展。只有通过负责任的规划和创新,我们才能确保AI技术真正造福人类社会,而不是成为不可持续的负担。