OpenAI的六座巨型数据中心:AI基础设施的无限循环

1

前所未有的基础设施建设

OpenAI、甲骨文和软银近日宣布了Stargate项目的重大进展——计划在美国建设五座新的AI数据中心,将这一AI基础设施平台的总规划容量提升至近7吉瓦,未来三年的投资额超过4000亿美元。这一庞大的扩建计划旨在处理ChatGPT每周7亿的用户需求,并训练未来的AI模型。尽管批评者质疑这种投资结构能否持续,但公司表示,此次扩张使他们有望在2025年底前确保他们今年1月宣布的5000亿美元、10吉瓦的承诺。

五座新数据中心将包括三个通过OpenAI和甲骨文合作伙伴关系开发的位置:德克萨斯州的谢尔克福德县、新墨西哥州的唐娜安娜县,以及一个未公开的中西部地点。这些站点加上德克萨斯州阿比林旗舰Stargate站点附近的600兆瓦扩建,可提供超过5.5吉瓦的容量,这意味着现场计算机在满负荷运行时能够消耗高达55亿瓦的电力。公司预计这些站点将创造超过25,000个现场就业机会。

另外两个站点将通过软银和OpenAI的合作伙伴关系开发。俄亥俄州洛德斯顿的一个站点已经破土动工,有望在明年投入运营。德克萨斯州米拉姆县的第二个站点将与软银集团旗下的SB Energy共同开发。这两个站点在未来18个月内可能扩展到1.5吉瓦。

Stargate数据中心

德克萨斯州阿比林的"Stargate I"站点

已公布的Stargate站点概览

新站点将加入德克萨斯州阿比林的旗舰Stargate校园。甲骨文已于6月开始向该站点交付英伟达硬件,OpenAI已经开始使用该数据中心进行训练(构建新模型)和推理(运行ChatGPT)。

以下是迄今为止公布的Stargate站点概览:

  • 阿比林,德克萨斯州:旗舰校园,已配备英伟达GB200机架,另有计划中的600兆瓦扩建
  • 谢尔克福德县,德克萨斯州:新的甲骨文开发站点
  • 唐娜安娜县,新墨西哥州:新的甲骨文开发站点
  • 中西部地点(未公开):新的甲骨文开发站点
  • 洛德斯顿,俄亥俄州:新的软银开发站点,明年投入运营
  • 米拉姆县,德克萨斯州:新的软银/SB能源站点

OpenAI为何需要庞大的计算能力

OpenAI及其合作伙伴提出的数字——10吉瓦、5000亿美元——对于不熟悉互联网基础设施规模的普通人来说,规模令人震惊和难以理解。例如,10吉瓦相当于大约10座核电站的发电量,足以供应数百万家庭的用电。但OpenAI真的需要这些数据中心做什么呢?这一切都源于OpenAI首席执行官Sam Altman为数十亿人提供智能即服务的梦想。

"只有构建计算能力,AI才能实现其承诺,"OpenAI首席执行官Sam Altman在公告中表示。"这种计算能力是确保每个人都能从AI中受益并解锁未来突破的关键。"

Altman的言论反映了他对未来AI系统有用性的乐观态度,但尽管有人警告AI泡沫并批评底层技术,目前生成式AI容量仍存在实际未满足的需求。ChatGPT每周有7亿活跃用户,是美国人口的两倍多,他们经常使用AI助手来开发软件、提供个人建议,以及撰写或编辑信函和报告。虽然输出有时可能不完美,但人们显然仍然需要它们。

OpenAI经常面临严重的产能限制,导致用户查询聊天机器人的频率受到限制。ChatGPT Plus订阅用户经常遇到这些使用限制,特别是在使用图像生成或模拟推理模型等计算密集型功能时。作为未来订阅入口的免费用户面临的限制更为严格。OpenAI缺乏满足当前需求的计算能力,更不用说为未来增长留出空间了。

Stargate数据中心建设

Stargate数据中心施工现场

训练下一代AI模型的挑战

在运行驱动ChatGPT等现有AI模型的同时,训练下一代AI模型使问题更加复杂。OpenAI一直在后台不断开发新技术,这一过程需要数千片专用芯片连续运行数月。

现代AI模型的训练需要惊人的计算资源。例如,GPT-4据说训练时使用了超过1万块英伟达A100 GPU,而未来的模型可能需要更多。这种规模的训练不仅需要大量硬件,还需要专门的冷却系统、电力基础设施和专业知识来确保过程顺利进行。

此外,AI模型的训练只是计算需求的一部分。一旦模型训练完成,还需要大量计算资源来提供服务(推理过程)。随着用户数量的增长和模型功能的扩展,推理需求也在不断增长,这要求OpenAI不仅要扩展训练能力,还要扩展服务能力。

循环投资的疑问

OpenAI、甲骨文和英伟达之间交易的财务结构引起了行业观察家的密切关注。本周早些时候,英伟达宣布将投资高达1000亿美元,因为OpenAI部署英伟达系统。正如Requisite Capital Management的Bryn Talkington告诉CNBC的那样:"英伟达向OpenAI投资1000亿美元,然后OpenAI又将其返还给英伟达。"

甲骨文的安排遵循类似模式,据报道是一项每年300亿美元的协议,甲骨文建设OpenAI付费使用的设施。这种循环流动——基础设施提供商投资于AI公司,而这些公司成为他们最大的客户——引发了人们对这些代表真正的经济投资还是复杂的会计操作的质疑。

这些安排正变得更加复杂。《信息》本周报道称,英伟达正在讨论向OpenAI租赁其芯片,而不是直接出售。根据这种结构,英伟达将创建一个单独实体来购买自己的GPU,然后将其租赁给OpenAI,这为这种复杂的关系又增加了一层循环财务工程。

科技评论家Ed Zitron上周在Bluesky上写道:"英伟达资助公司并给予他们必要的保证合同来筹集债务购买英伟达的GPU,尽管这些公司严重亏损,最终将因缺乏任何实际需求而消亡。"Zitron指的是CoreWeave和Lambda Labs等公司,这些公司已筹集数十亿美元债务购买英伟达GPU,部分基于英伟达自身的合同。这种模式反映了OpenAI与甲骨文和英伟达的安排。

AI泡沫的风险与机遇

如果泡沫破裂会怎样?就连Altman本人上月也警告称,在他称之为AI泡沫中,"有人将损失惊人数量的金钱"。如果AI需求无法满足这些天文数字般的预测,建立在物理土壤上的大型数据中心不会简单地消失。当2001年互联网泡沫破裂时,在繁荣时期铺设的光纤电缆最终随着互联网需求的增长找到了用途。同样,这些设施可能会转向云服务、科学计算或其他工作负载,但可能以投资者支付AI繁荣价格的巨大损失为代价。

然而,这种大规模的基础设施建设也可能带来积极的一面。如果AI确实如预期那样发展,这些数据中心将提供必要的计算能力来支持这一增长。此外,即使AI发展不如预期,这些设施也可以用于其他计算密集型任务,如气候建模、药物发现或材料科学,这些领域同样需要大量计算资源。

数据中心选址的战略考量

OpenAI及其合作伙伴选择这些特定位置建设数据中心并非偶然。这些选址通常考虑了多个因素:

  1. 电力供应:AI数据中心需要大量电力,因此选址通常靠近发电设施或具有丰富可再生能源的地区。

  2. 冷却条件:高性能计算产生大量热量,因此气候凉爽的地区或具有充足水资源的地区更受青睐。

  3. 网络连接:低延迟的网络连接对于分布式AI训练和推理至关重要。

  4. 政策支持:许多州和地方政府提供税收优惠和其他激励措施来吸引大型数据中心项目。

  5. 人才储备:靠近技术人才库可以招聘和留住必要的专业人才。

行业影响与未来展望

OpenAI的Stargate项目代表了AI基础设施建设的巅峰,但也反映了整个行业的趋势。其他AI公司,如谷歌、Meta和Anthropic,也在大力投资数据中心和计算基础设施。这种竞争可能导致:

  1. 计算资源争夺加剧:对高端GPU和其他AI专用硬件的需求可能持续紧张,推高价格。

  2. 能源消耗挑战:AI数据中心的能源需求将对电网和可再生能源发展提出新的挑战。

  3. 技术创新加速:为了更有效地利用计算资源,AI模型架构和训练方法可能会不断创新。

  4. 行业整合:只有少数几家大型公司可能负担得起这种规模的基础设施建设,可能导致行业进一步集中。

结论

OpenAI的六座巨型数据中心代表了AI基础设施建设的雄心壮志,也反映了当前AI发展的需求和挑战。这种规模的投资既是对AI未来的押注,也是对当前市场需求的回应。然而,循环投资模式和潜在的泡沫风险提醒我们,这种发展模式并非没有挑战。无论未来如何,这些大型数据中心都将成为计算基础设施的重要组成部分,可能支持远超AI本身的应用和服务。在技术、经济和市场力量的交汇处,OpenAI的基础设施建设将继续塑造AI发展的轨迹,同时也将受到这一发展轨迹的影响。