华为超节点架构：重塑AI算力格局的五大创新与实践洞察

在人工智能技术飞速发展的时代，算力作为驱动创新的核心引擎，正面临前所未有的挑战与机遇。传统的服务器堆叠模式在面对日益增长的AI模型规模和复杂度时，其瓶颈日益凸显，例如集群规模越大，算力利用率可能越低，训练中断的频率也越高，这严重阻碍了AI应用的深度发展和广泛落地。正是在这样的背景下，华为在近期举行的华为全联接大会上，由董事、ICT BG CEO杨超斌正式揭示了其革新性的超节点架构，旨在为千行万业提供一个坚实、高效的全场景算力底座。

超节点架构的核心突破：释放集群规模算力的潜能

杨超斌指出，华为超节点架构的诞生，是基于其自主研发的灵衢互联协议。这项协议的创新之处在于，它能够将多台物理机器进行深度互联，使其在逻辑层面实现像一台机器一样进行学习、思考与推理。这种全新的范式，无疑重新定义了大规模有效算力的高效性、稳定性和可扩展性。

超节点架构具备三大关键特性：资源池化、规模扩展和长稳可靠。通过灵衢协议，计算和存储单元能够实现大带宽、低时延的互联，并通过统一协议和内存编址，确保有效算力能够随集群规模的线性扩展而同步增长。更重要的是，它大幅提升了集群的整体可靠性，有效解决了传统架构中大规模部署时算力利用率下降和训练中断频繁的问题。这种架构革新不仅仅是硬件层面的堆砌，更是通过底层互联协议的重构，实现了从“多台机器”到“一台巨型机器”的质变，为AI模型训练和推理提供了前所未有的支撑。

全面升级的产品矩阵：构建全场景算力底座

华为围绕超节点架构持续创新，已经推出了覆盖不同场景的系列产品。此前，华为已成功部署了300多套Atlas 900 A3 SuperPoD超节点，广泛服务于互联网、金融、运营商、电力和制造等多个行业的客户，验证了超节点架构在实际应用中的卓越性能。

在本届大会上，华为进一步发布了多款基于灵衢和超节点架构的全新产品，以满足从超大型AI计算任务到企业级日常应用，乃至通用计算的多元化需求：

1. 全液冷数据中心AI超节点Atlas 950 SuperPoD

Atlas 950 SuperPoD是为超大型AI计算任务量身定制的顶级解决方案。它在基础器件、协议算法和光电技术上实现了系统级创新突破。其独特的正交架构实现了零线缆电互联，并通过液冷接头浮动盲插设计确保零漏液。华为独创的材料和工艺，更将光模块的液冷可靠性提升了一倍。其核心亮点在于创新的UB-Mesh递归直连拓扑网络架构，支持单板内、单板间和机架间的NPU全互联，能够以64卡为步长按需扩展，最大可实现8192卡无收敛全互联，这对于训练拥有万亿级甚至更大参数规模的超大型AI模型而言，是不可或缺的算力基石。它极大地提升了AI模型训练的效率和稳定性，使得前沿科学研究和工业级AI应用能够突破算力瓶颈。

2. 企业级风冷AI超节点服务器Atlas 850

华为发布AI超节点服务器Atlas 850，支持128台1024卡超节点集群

Atlas 850是业界首个企业级风冷AI超节点服务器，内部搭载8张昇腾NPU，旨在有效满足企业在模型后训练、多场景推理等方面的需求。其卓越之处在于支持多柜灵活部署，最大可形成128台1024卡的超节点集群，这意味着在传统的风冷机房环境下，企业也能够享受到超节点架构带来的强大算力，这在业界尚属独一无二。对于那些不具备液冷基础设施但又需要高性能AI算力的企业来说，Atlas 850提供了一个理想的解决方案，降低了AI算力部署的门槛。

3. AI新一代标卡Atlas 350

Atlas 350标卡采用了最新的昇腾950PR芯片，在向量算力方面实现了2倍的性能提升。它支持更细粒度的Cacheline访问，在推荐推理场景下可实现2.5倍的性能提升，并且单卡即可独立运行。Atlas 350还支持4个灵衢端口互联，实现了算力、内存等资源的深度池化，使得更大参数规模的模型和对时延要求更低的应用能够在通用标卡上高效运行。这标志着高性能AI计算正在向更广泛的开发者和应用场景普及。

4. 业界首款通算超节点TaiShan 950 SuperPoD

除了专注于AI算力，华为还推出了业界首款通算超节点TaiShan 950 SuperPoD。它具备百纳秒级超低时延、TB级超大带宽以及内存池化能力，能够显著提升数据库、虚拟机热迁移和大数据分析等传统计算场景的业务性能。TaiShan 950 SuperPoD的出现，为通用计算性能的提升开辟了全新的路径，意味着超节点架构的优势不仅限于AI，更将普惠到整个ICT基础设施。

硬件开放与软件开源：共筑繁荣智能生态

华为深知，要加速超节点技术的普惠和产业协同创新，开放与共享至关重要。因此，华为全面开放超节点技术，与产业界共享技术红利：

1. 硬件开放，助力伙伴打造超节点场景化方案

华为首先开放了灵衢协议和超节点参考架构，允许产业伙伴基于技术规范进行相关产品或部件的自主研发，从而激发整个产业链的创新活力。其次，华为全面开放了超节点基础硬件，包括NPU模组、风冷刀片、液冷刀片、AI标卡、CPU主板和级联卡等多种形态，方便客户和伙伴进行增量开发，设计基于灵衢协议的各类定制化产品。这种开放策略降低了合作伙伴的研发门槛，加速了行业解决方案的落地。

2. 软件开源，加速开发者灵活高效创新

超节点架构的有效运行同样离不开操作系统层面的深度支持。为此，超节点架构相关的操作系统灵衢组件将全部开源，其代码将陆续合入openEuler等多个上游操作系统开源社区。用户可以根据自身需求，灵活选择集成部分或全部源代码到现有操作系统中，进行自主迭代维护，也可以选择直接合入整个组件，并与开源社区版本保持同步演进。这种模式极大地提升了软件生态的灵活性和可定制性。

此外，华为坚信开源是驱动技术创新和产业进步的核心力量。昇腾CANN（Compute Architecture for Neural Networks）已全面开源开放，同时Mind系列组件也同步开源，并优先支持PyTorch、vLLM等业界主流开源社区。这一系列举措旨在加速开发者的自主创新，共同构建一个充满活力的智能计算生态系统，让更多开发者能够基于华为的底层技术栈，快速开发和部署各种AI应用。

展望未来：超节点架构的深远影响

智能化的浪潮正以其磅礴之力重塑各行各业的运作模式。华为超节点架构的推出，不仅是对现有算力模式的一次重大革新，更是对未来智能时代基础设施的一次战略布局。通过硬件的开放、软件的开源以及全场景产品矩阵的构建，华为正与全球客户和伙伴携手，共同构建一个坚实、普惠的算力底座，以应对AI技术爆炸式增长所带来的海量算力需求。

我们预期，超节点架构将在推动AI大规模应用、加速行业数字化转型、以及赋能科学研究和技术创新方面发挥关键作用。它将帮助企业和机构更有效地利用AI技术，降低计算成本，提升研发效率，最终在智能时代中赢得先机。华为坚持技术创新和开放共享的理念，将持续引领智能算力发展方向，与生态伙伴共同迈向一个更加智能、互联的未来。