华为超节点架构：如何重塑全场景算力新范式？

智能时代核心驱动：算力架构的革新与未来趋势

当前，人工智能技术的飞速发展正深刻改变着各行各业，而其背后最关键的支撑就是强大的算力。随着大模型、生成式AI等前沿应用的涌现，对算力的需求已远超传统架构所能承载的范畴。有效算力不足、集群扩展瓶颈、训练中断频繁等问题，已成为制约AI发展的重要挑战。在此背景下，计算架构的创新显得尤为迫切。

在备受瞩目的华为全联接大会2025期间，华为董事、ICT BG CEO杨超斌发表了题为“超节点架构创新，开源开放共筑全场景算力底座”的重量级演讲，正式揭示了华为在算力领域的一项重大突破——创新的超节点架构。这一架构的推出，不仅预示着高效、稳定、可扩展的大规模有效算力将拥有全新的实现路径，也彰显了华为与产业界携手共建全场景算力底座的决心。

华为超节点架构：重塑大规模算力新范式

杨超斌指出，华为通过开创性的灵衢互联协议，成功构建了超节点架构。这一架构的精髓在于，它能够将多台独立的物理机器进行深度互联，使其在逻辑层面如同单一巨型机器般协同工作，进行高效的学习、思考与推理。这种设计理念彻底颠覆了传统服务器堆叠模式固有的局限性，解决了以往集群规模越大，算力利用率越低、训练中断越频繁的痛点。

超节点架构的核心优势体现在以下几个方面：

资源池化：通过灵衢协议，计算与存储单元实现了大带宽、低时延的互联互通，资源得以高效共享和调度，避免了资源孤岛效应。
规模扩展性：基于统一协议和内存编址，超节点架构确保了有效算力能够随集群规模的线性扩展，为未来AI模型参数的持续增长提供了坚实基础。这意味着，无论是百卡还是万卡规模，都能保持高效的算力输出。
长稳可靠性：架构层面的深度优化显著提升了集群的整体可靠性，减少了训练任务因硬件或网络故障而中断的风险，保障了AI训练任务的连续性和稳定性。

可以说，超节点架构不仅仅是硬件堆叠的简单升级，更是对算力系统底层逻辑的重新思考与构建，它为AI时代的算力瓶颈提供了一个系统性的解决方案。

超节点家族：赋能全场景AI创新

华为围绕超节点架构持续创新，推出了一系列面向不同场景需求的超节点产品。这些产品覆盖了从超大型数据中心到企业级数据中心乃至小型工作站的全场景算力需求，力求让超节点技术普惠千行百业。

华为AI超节点服务器示例

当前，Atlas 900 A3 SuperPoD超节点已累计部署超过300套，在互联网、金融、运营商、电力、制造等20多个行业客户中展现出其卓越性能和价值。在此次大会上，华为进一步发布了多款基于灵衢和超节点架构的全新产品：

全液冷数据中心AI超节点Atlas 950 SuperPoD：面向超大型AI计算任务而生，Atlas 950 SuperPoD在基础器件、协议算法和光电技术上实现了系统级创新。其采用正交架构，通过零线缆电互联提升连接效率；液冷接头浮动盲插设计确保了零漏液，独创材料和工艺使光模块液冷可靠性翻倍。尤为引人注目的是，它采用创新的UB-Mesh递归直连拓扑网络架构，支持单板内、单板间和机架间的NPU全互联，以64卡为步长按需扩展，最大可实现8192卡的无收敛全互联，为万亿参数模型训练提供了极致算力。
企业级风冷AI超节点服务器Atlas 850：作为业界首个企业级风冷AI超节点服务器，Atlas 850内部搭载8张昇腾NPU，旨在有效满足企业在模型后训练、多场景推理等方面的需求。其支持多柜灵活部署，能够最大程度形成128台1024卡的超节点集群。更重要的是，它是目前业内唯一能在标准风冷机房环境下实现超节点架构的算力集群，极大地降低了部署门槛和运维成本，使得企业能够在现有基础设施上获得强大的AI算力。
AI新一代标卡Atlas 350：这款标卡搭载最新的昇腾950PR芯片，向量算力提升高达2倍。它支持更细粒度的Cacheline访问，在推荐推理场景下可实现2.5倍的性能提升，并且单卡即可独立运行。Atlas 350支持4个灵衢端口互联，实现了算力、内存等资源的池化，这意味着更大参数的模型、对时延要求更低的应用也能够在单个标卡上实现高性能运行。
业界首个通算超节点TaiShan 950 SuperPoD：华为推出的TaiShan 950 SuperPoD，是通用计算领域的一项革新。它具备百纳秒级超低时延、TB级超大带宽和内存池化能力，能够显著提升数据库、虚拟机热迁移以及大数据场景下的业务性能。通算超节点的出现，为通用计算性能的提升开辟了全新路径，有助于企业更高效地处理各类复杂业务负载。

硬件开放与软件开源：共建繁荣生态

华为深知，仅凭一己之力难以推动整个产业的智能化进程。因此，华为始终坚持开放共享的策略，致力于与产业伙伴共同成长，构建一个充满活力的超节点生态。

硬件开放，助力伙伴打造超节点场景化方案

华为全面开放超节点技术，旨在与产业界共享技术红利，推动超节点技术走向普惠与协同创新。具体措施包括：

开放灵衢协议和超节点参考架构：这使得产业界能够基于华为的技术规范，自主研发相关的产品或部件，从而加速硬件创新和多样化。
全面开放超节点基础硬件：华为提供了NPU模组、风冷刀片、液冷刀片、AI标卡、CPU主板和级联卡等多种形态的硬件。客户和伙伴可以基于这些基础模块进行增量开发，设计出各种基于灵衢协议的定制化产品，满足垂直行业的特殊需求。这种开放策略降低了伙伴进入超节点领域的门槛，促进了行业解决方案的快速迭代。

软件开源，加速开发者灵活高效创新

超节点架构的强大功能离不开操作系统层面的深度支持。华为在软件层面的开放策略同样坚定而富有远见：

操作系统灵衢组件全面开源：灵衢组件的代码将陆续合入openEuler等多个上游操作系统开源社区。这意味着用户可以根据自身需求，将部分或全部源代码集成到现有操作系统中，进行自主迭代和维护；也可以直接将整个组件合入现有操作系统，并与开源社区的版本演进保持同步。这种开源模式极大地增强了系统的灵活性和可定制性，赋予开发者更大的自主权。
昇腾CANN及Mind系列组件同步开源：作为昇腾AI计算栈的核心组成部分，昇腾CANN和Mind系列组件也将全面开源。为了更好地服务开发者，华为优先支持PyTorch、vLLM等业界主流开源社区，旨在加速开发者高效自主创新。通过提供丰富的开发工具和框架，华为致力于降低AI开发的复杂度，激发社区的创新活力。

展望智能未来：携手共筑算力新纪元

智能化的浪潮正以前所未有的速度和深度重塑着全球的经济与社会格局。在这一变革时期，强大的、普惠的算力是推动智能化深入发展的基石。华为通过超节点架构的创新，以及硬件开放与软件开源的策略，不仅提供了一套领先的算力解决方案，更致力于构建一个开放、协作、共赢的生态系统。

超节点架构的推出，不仅解决了当前AI算力面临的诸多挑战，更为未来的AI技术演进预留了广阔的空间。随着越来越多伙伴和开发者加入到超节点生态中，我们可以预见，基于超节点架构的行业场景化解决方案将如雨后春笋般涌现，加速各行各业的数字化和智能化转型。从智慧城市到智能制造，从基因测序到自动驾驶，超节点架构将为这些领域的突破提供前所未有的算力支撑。

华为始终秉持技术创新、开放共享的理念，携手客户和伙伴，共同应对智能化带来的机遇与挑战。通过持续深耕ICT基础设施，华为正致力于为千行百业铸就坚实可靠的全场景算力底座，共同迎接并驾驭智能时代的澎湃浪潮。