AI能耗革命:谷歌如何一年内将查询成本降低33倍?

1

AI能耗困境与谷歌的破局之路

近年来,随着人工智能技术在全球范围内的爆炸式增长和广泛应用,其对能源消耗的影响日益受到关注。特别是在美国,电力使用量在过去一年中显著上升,打破了数十年的平稳趋势,这股增长浪潮与数据中心的快速扩张密不可分,而这些数据中心的核心驱动力正是蓬勃发展的AI服务。值得注意的是,部分新增电力需求甚至通过燃煤发电来满足,这无疑加剧了对AI环境足迹的担忧。然而,要准确量化AI的真实环境影响并非易事,因为这需要深入掌握数据中心的运营细节,例如硬件使用频率以及AI查询的服务比例,这些数据往往难以从外部获取。

面对这一挑战,谷歌凭借其作为全球领先的AI服务提供商的地位,拥有海量的真实世界运行数据。因此,谷歌发布的一项关于AI环境影响的新分析报告,为我们提供了一个难得的机会,得以一窥AI能耗的内部运作机制。这份报告揭示了一个令人振奋的趋势:AI能源消耗的估算正处于动态变化中。谷歌数据显示,其单次AI搜索查询的能耗在短短一年内,已惊人地下降了33倍,这标志着AI领域在能源效率方面取得了里程碑式的进展。

深度解析AI能耗衡量的复杂性

在进行任何能耗分析时,一个核心问题是确定哪些因素应该被纳入考量。显然,处理请求时处理器消耗的能量是直接因素,但除此之外,还包括支撑这些处理器所需的内存、存储、散热以及其他配套设施的能耗。更进一步看,制造所有硬件并建设容纳这些设施的建筑也产生了巨大的能源消耗。此外,AI模型在训练阶段需要消耗大量的能量,这部分成本在模型完成训练后,理论上应被分摊到每一次模型服务请求中。

过去的许多能耗分析往往由于数据获取的限制,不得不省略某些关键因素,例如分析者通常无法得知特定任务所需的处理器数量,更遑论与硬件生产相关的碳排放。但谷歌的情况截然不同,它几乎能够获取所有相关数据:从每次请求的能源消耗,到所需硬件、散热要求,再到整个数据中心的能耗和水资源使用。鉴于追踪企业活动产生的范围2(直接)和范围3(间接)碳排放已成为行业标准,谷歌很可能也掌握了供应链层面的排放数据。

在此次最新分析中,谷歌跟踪了CPU、专用AI加速器和内存的能耗,无论是处理查询时的活跃状态还是查询间的空闲状态。它还监测了整个数据中心的能源和水资源使用情况,并能够根据数据中心内其他服务的占比,估算出服务AI查询所占用的确切份额。更重要的是,谷歌还追踪了电力供应相关的碳排放,以及所使用所有硬件生产过程中产生的排放。然而,有三大关键因素并未纳入本次分析。首先是网络传输请求和返回结果所需的能耗,这会因请求类型而异。其次是终端用户硬件的计算负载,这在游戏级台式机和智能手机之间存在巨大差异。而唯一一个谷歌本可以合理估算但未纳入的因素,是其模型训练阶段的影响。显然,谷歌对其模型训练的能源成本了如指掌,并且能够合理估算训练模型的有效生命周期内所处理的请求数量。但遗憾的是,这部分并未包含在当前的估算中。从长远来看,若要全面评估AI的生命周期环境影响,训练阶段的能耗是不可或缺的一环,其巨大能量消耗若能被有效地分摊和衡量,将提供更完整的视角。

为得出典型能耗数据,分析团队在24小时内跟踪了请求及其服务硬件,以及硬件的空闲时间。这使得他们能够估算出每次请求的能耗,具体数值因所使用的模型而异。每天,他们都会识别出中位数的提示请求,并以此计算其环境影响。

惊人的能效飞跃:数据洞察与关键驱动因素

根据这些细致的估算,谷歌团队发现,单个文本请求的环境影响已变得相当微小。“我们估计,Gemini 应用的中位数文本提示消耗0.24瓦时(watt-hours)的能量,排放0.03克二氧化碳当量(gCO2e),并消耗0.26毫升(约五滴)水,”报告总结道。为了更直观地理解,他们估算其能耗大致相当于观看九秒电视节目的电量。

尽管单个查询的能耗大幅降低,但坏消息是,AI请求的总量无疑是巨大的。谷歌选择将AI操作融入每一次搜索请求中,这在几年前是根本不存在的计算需求。因此,虽然个体影响微乎其微,但累积成本仍然是相当可观的。

好消息是,仅仅在一年前,情况会糟糕得多,当时的能耗是现在的33倍。这种巨大的进步并非偶然,而是多方面因素共同作用的结果。一部分得益于外部环境的变化。随着美国及其他地区太阳能发电的蓬勃发展,谷歌更容易获得可再生能源供应。因此,每单位能量消耗的碳排放量在过去一年中减少了1.4倍。但最大的突破来自软件层面,通过采用不同的方法,每条提示的能耗降低了33倍。

AI能耗组成

服务AI请求的大部分能耗来自定制加速器芯片的使用时间。图片来源:Elsworth, et. al.

谷歌团队详细阐述了公司实现这些优化的一系列措施。其中一项关键方法是“专家混合”(Mixture-of-Experts, MoE)策略,该方法能够识别并仅激活AI模型中处理特定请求所需的部分,从而将计算需求降低10到100倍。他们还开发了多个主模型的紧凑版本,这也显著减少了计算负载。数据中心的精细化管理也发挥了重要作用,公司确保任何活跃的硬件都能得到充分利用,同时允许其余设备保持在低功耗状态,最大限度地提升了整体能效。

谷歌的另一大优势在于其自主设计定制AI加速器,并针对这些加速器架构软件。这种软硬件协同设计的能力,使得两端能够完美协同工作,实现极致优化。考虑到AI加速器在每次查询中占据了总能耗的一半以上,这种协同优化显得尤为关键。此外,谷歌在运营高效数据中心方面拥有丰富的经验,这些宝贵的经验也成功地迁移并应用于AI服务的能效管理。

所有这些努力的综合结果是,谷歌估计其典型文本查询的能耗在过去一年中下降了33倍。这种效率提升带来了连锁效应,例如,硬件制造所产生的碳排放成本被摊薄了,因为硬件在其整个使用寿命内能够处理远超以往的查询量。这不仅体现了技术进步,更彰显了可持续发展理念在AI领域的实践。

行业标准化:通往可持续AI的必由之路

鉴于这些显著的效率提升,谷歌本可以仅仅将这些成果作为一项公关活动来宣传;然而,该公司选择以一种学术出版物的严谨形式,详细阐述其方法论和考量因素。谷歌采取这种做法,是因为这项工作背后的团队希望行业内的其他参与者也能采纳其方法。他们总结道:“我们倡导广泛采用这种或类似的综合测量框架,以确保随着AI能力的不断提升,其环境效率也能同步进步。”

从更深层次来看,谷歌的呼吁超越了简单的技术分享,它指向了AI领域可持续发展的未来。缺乏统一的衡量标准,将使得不同企业对AI能耗的报告难以进行有效比较,甚至可能出现“绿色漂洗”的现象,即企业声称环保实则缺乏实质性改进。因此,建立一套透明、可验证且普遍适用的能耗测量框架,对于推动整个AI行业向更加环保、可持续的方向发展至关重要。这不仅是技术创新的责任,更是企业公民在全球气候变化挑战面前的应有担当。唯有通过行业共识与协作,才能真正确保AI技术在造福人类的同时,最大限度地降低对地球环境的负面影响。