近年来,全球电力消耗呈现显著增长趋势,与过去数十年基本持平的用电量形成鲜明对比。这股增长浪潮与数据中心的迅猛扩张密不可分,而其中很大一部分数据中心的建设正是为了满足日益增长的人工智能(AI)应用需求。鉴于部分新增电力需求仍依赖燃煤发电来满足(截至5月,燃煤发电占比同比上升约20%),AI对环境的影响似乎不容乐观,引发了社会各界对其可持续性的广泛关注。
然而,要准确评估AI在真实世界中的环境足迹并非易事。这需要深入了解数据中心的运行细节,例如硬件的实际利用率以及AI查询服务的频率等核心数据,这些信息往往仅限于数据中心运营者掌握。因此,尽管学术界能够对单个AI模型的能耗进行精准测试,但将其结果推演至实际应用场景时,仍面临巨大的挑战。这正是谷歌最新发布的AI环境影响分析报告之所以具有非凡价值的原因。作为拥有海量真实世界运行数据的科技巨头,谷歌的报告为我们提供了一个难得的机会,得以一窥AI能耗的庐山真面目。值得注意的是,这份分析表明,AI能耗的估算是一个动态变化的目标,谷歌的数据显示,其单次AI搜索查询的能耗在短短一年内已降低了惊人的33倍。
能耗计算的边界界定:何者纳入,何者排除?
在进行任何能耗分析时,如何划定计算边界是一个关键问题。显而易见地,处理器处理请求时消耗的能量是核心考量,但同时还需要计入支持这些处理器所需的内存、存储、散热以及其他辅助设备能耗。更进一步看,制造所有硬件设施以及建设容纳它们的物理基础设施所消耗的能量也应纳入考量。此外,AI模型在训练阶段需要消耗大量能源,这部分能源中的一部分或许也应按比例分配到模型每次推理查询的成本中。
以往的许多能耗分析报告,往往由于数据获取受限,而不得不省略部分影响因素。例如,分析人员可能无法准确知晓完成特定任务需要多少专用处理器,更不用说这些处理器生产过程中产生的碳排放量。与此不同,谷歌凭借其在基础设施和运营方面的深度掌控,几乎能够获取所有相关数据:包括服务请求所用的能源、所需硬件、散热需求等。此外,随着企业普遍开始追踪因自身活动(无论是直接的发电等,还是通过供应链间接产生的)而产生的“范围2”和“范围3”排放,谷歌也拥有这方面的详细数据。
针对本次分析,谷歌追踪了CPU、专用AI加速器以及内存在处理查询时的能耗,以及在查询间隙的空闲能耗。同时,它还监控了整个数据中心的能源和水资源消耗,并根据数据中心内部配置,估算出服务AI查询所占用的比例。更为全面的是,谷歌还追踪了电力供应相关的碳排放,以及所使用所有硬件生产过程中产生的排放。
然而,仍有三大主要因素未被纳入本次计算。其一是用于接收请求和传递结果的网络容量相关的环境成本,这部分能耗因请求性质不同而差异巨大。同理,最终用户硬件的计算负载也未计入,因为使用游戏桌面电脑与智能手机之间的能耗差异显著。而谷歌本可以做出合理估算但最终未纳入的一项,是其AI模型训练阶段的影响。显然,谷歌掌握训练阶段的能耗数据,并且能够对其训练模型的有效寿命和在此期间处理的请求数量做出合理估计。但在本次评估中,这部分影响并未包含。
为了得出典型能耗数据,分析团队在24小时内追踪了请求及其所服务的硬件,以及这些硬件的空闲时间。这使得他们能够估算出每次请求的能耗,该能耗会因所用模型而异。每天,他们会识别出中位数提示,并用其来计算环境影响。
能耗曲线的下行趋势:个体影响与累积效应
依据这些估算,谷歌团队发现,单个AI文本请求的环境影响相当微小。他们总结道:“我们估计,中位数Gemini Apps文本提示消耗0.24瓦时(Wh)的能量,排放0.03克二氧化碳当量(gCO2e),并消耗0.26毫升(约五滴)的水。”形象地说,这种能源消耗量约相当于观看9秒电视所需的能量。这意味着从个体用户的角度看,一次AI交互的能耗足迹确实非常低。
然而,不容忽视的是,AI请求的总量无疑是极其庞大的。谷歌已选择在每一次搜索请求中执行AI操作,这产生了在几年前根本不存在的计算需求。因此,尽管单个请求的影响微不足道,但累积起来的总成本预计将是相当可观的。这正是AI领域在追求效率提升的同时,也必须警惕其规模效应带来的潜在环境压力。
好消息是,仅仅在一年前,情况会比现在糟糕得多。谷歌能耗效率的显著提升,主要得益于多方面的优化,包括外部环境的改善和内部技术的创新。
服务AI请求的大部分能耗来自定制加速芯片的使用。图片来源:Elsworth等人。
谷歌能效提升的驱动因素:技术与策略的协同
谷歌实现能耗大幅下降的原因是多方面的。首先,得益于美国及其他地区太阳能发电的蓬勃发展,谷歌更容易获取可再生能源。因此,过去一年中,每单位能源消耗的碳排放量减少了1.4倍。这表明能源结构的绿色转型,对降低AI的碳足迹起到了重要的外部支撑作用。
然而,最大的进步来自于软件层面的优化,不同的方法已使每次提示的能耗降低了惊人的33倍。谷歌团队详细阐述了公司为此做出的一系列优化措施:
- 专家混合(Mixture-of-Experts, MoE)方法:这是一种创新的模型架构,它能识别出处理特定请求所需的AI模型部分并只激活这些部分,从而将计算需求降低10到100倍。通过这种方式,模型不再需要为每一个查询都调用全部参数,极大地提高了计算效率。
- 紧凑型模型开发:谷歌开发了多个其主模型的紧凑版本,这些更小、更精简的模型能够以更低的计算负载完成任务,进一步降低了能耗。
- 数据中心管理优化:高效的数据中心管理策略也功不可没。公司能够确保所有活跃硬件得到充分利用,而其余硬件则保持在低功耗状态,避免了不必要的能源浪费。这体现了精细化运营在节能方面的重要作用。
此外,谷歌在AI能效优化方面还拥有一个独特的优势:它设计自己的定制AI加速器,并架构运行在这些加速器上的软件。这种软硬件一体化的协同设计能力,使其能够最大程度地优化两端的性能,确保它们之间的高效协作。鉴于AI加速器在单个查询的总能耗中占据了一半以上,这种深度集成对降低整体能耗至关重要。谷歌在运营高效数据中心方面积累的丰富经验,也自然地延续到了AI基础设施的优化中。
所有这些努力的综合结果是,谷歌估算其典型文本查询的能耗在过去一年中下降了33倍。这种效率的提升还带来了连锁效应:例如,与硬件生产相关的碳排放成本,会因为硬件在其有效寿命内能够处理更多查询而被“稀释”,从而相对降低了单位查询的隐含环境成本。
鉴于这些显著的效率提升,谷歌本可以将其成果简单地作为一项公关活动来宣传。但该公司选择了更为严谨和负责任的做法,详细阐述了其测量方法和考量因素,使这份报告更像是一篇学术出版物。这种开放和透明的姿态,源于该项工作背后团队的愿景:他们希望行业内的其他参与者也能采纳类似的方法。“我们倡导广泛采用这种或类似的全面测量框架,以确保随着AI能力的不断进步,其环境效率也能够同步提升,”他们总结道。这不仅是对自身成就的展示,更是对整个AI行业可持续发展方向的积极引导。通过标准化的、透明的评估体系,AI技术的发展才能真正与环境保护并行不悖,共同构建一个更加智能且绿色的未来。最终,实现AI技术的长远发展与地球生态平衡的和谐共存,是每一个科技企业乃至整个社会应肩负的责任。这份报告为我们提供了一个宝贵的起点,启发我们更深入地思考如何在追求技术突破的同时,坚守对环境的承诺。理解并积极应对AI带来的环境挑战,将是定义未来智能时代的关键议题。