华为云如何构建算力黑土地:深度解读昇腾AI与Tokens服务的智能引擎

1

在当今全球数字化转型浪潮中,人工智能(AI)正以前所未有的速度改变着各个行业。伴随生成式AI和大模型的爆发式发展,对底层算力的需求呈现出几何级数增长的态势。面对未来十年算力可能高达数万倍的增长预期,如何构建一个高性能、高可靠、低成本的算力基础设施,成为各界关注的焦点。在近期贵州省贵阳市举办的中国国际大数据产业博览会上,华为常务董事、华为云计算CEO张平安对此进行了深入阐述,描绘了华为云打造“算力黑土地”的宏伟蓝图。

算力黑土地:智能时代的核心基础设施

华为云坚定不移地将“算力黑土地”定义为智能世界的基础设施,其核心在于为千行万业提供普惠、高效的算力服务。这一战略的实施,围绕国家“东数西算”工程布局,构建了以贵安、乌兰察布、和林格尔、芜湖为核心的“全国算力一张网”。这不仅优化了算力资源的跨区域调度,更确保了中国成为支持全球客户AI算力需求的坚实阵地。数据显示,华为云的整体算力规模相比去年同期增长了近250%,而使用昇腾AI云服务的客户数量也从321家跃升至1714家,充分印证了其战略的成功和市场的广泛认可。

在具体的区域部署上,贵安数据中心部署了华为云最大规模的CloudMatrix384超节点,成为服务全国客户、支撑“东数西算”工程的标杆。同时,贵安和乌兰察布还建设了超大规模的灾备云中心,为尤其对数据安全和业务连续性有高要求的央国企提供了高性能、稳定可靠的算力保障。这些布局不仅增强了算力资源的韧性,也为各行各业的数字化转型提供了坚实后盾。

华为常务董事、华为云计算CEO张平安

“大杂烩”优势:系统级创新突破算力瓶颈

面对当前全球芯片工艺受限的现实,如何持续提升算力的性能和规模成为了一个严峻挑战。张平安指出,华为凭借其在光通信、网络、供电等领域多年积累的综合技术优势,可以发挥独特的“大杂烩”效应。这并非简单地堆砌硬件,而是通过系统级的协同与创新,有效克服单点性能的瓶颈,实现算力的跃升。具体策略包括:

  • 以系统补单点:通过软件定义网络(SDN)、智能调度算法和先进的集群管理技术,优化整个算力系统的资源利用率和任务并行度,从而在整体上弥补单个芯片可能存在的性能局限。
  • 以空间换算力:在数据中心设计上,通过高效的散热系统、紧凑的物理布局以及先进的供电模块,为大规模算力集群提供稳定的运行环境,最大化单位空间内的算力密度。
  • 以带宽换算力:构建低延迟、高吞吐的高速互联网络。华为自研的MatrixLink技术能够实现NPU和CPU之间的全对等互联,极大地减少了数据传输的瓶颈,确保万亿甚至十万亿参数大模型训练时的数据流畅。
  • 以能源换算力:采纳绿色节能技术,如液冷散热、AI智能温控等,提高数据中心的能源使用效率(PUE),在满足高算力需求的同时,降低运营成本和环境影响。

这些策略的综合运用,使得华为云能够通过云上算力集群获得显著的规模优势和性能提升。

CloudMatrix384超节点:大模型训练的超级引擎

以华为云在芜湖发布的CloudMatrix384超节点为例,它集成了384颗昇腾NPU和192颗鲲鹏CPU,通过全新的高速网络MatrixLink实现全对等互联,形成一台性能高达300 PFlops(每秒300千万亿次浮点运算)的超级“AI服务器”。这种设计不仅提高了单节点的算力密度,更重要的是其出色的可扩展性。对于万亿、十万亿参数的超大规模大模型训练任务,CloudMatrix384超节点可以横向扩展,将432个超节点连接成一个庞大的16万卡AI集群。如果用于训练千亿参数大模型,这样的集群能够同时支持1300个任务,其并行处理能力令人瞩目。

目前,华为云已经为包括央国企、智能驾驶、大模型研发机构、互联网企业、消费电子厂商乃至具身智能领域在内的众多行业客户提供了极具竞争力的算力服务。张平安提到,中国头部金融机构利用昇腾平台,每天稳定支撑超过1000个智能体应用,这充分展示了昇腾算力在关键业务场景中的成熟度和可靠性。华为云提供的统一、多元算力架构,确保了企业无论在云上还是边缘,都能高效完成AI模型的训练与推理,加速各行各业的智能升级。

昇腾AI云服务与Tokens服务:加速千行万业智能跃迁

高质量的数据集是决定AI模型效果的关键因素。然而,传统企业的数据仓库和数据湖虽然积累了海量数据,但往往难以直接为AI模型所用,需要耗费大量精力进行数据准备和知识抽取工作。张平安强调,数据必须向AI原生演进,成为AI可辨识的知识,这就需要构建以知识为中心的AI数据底座。

为此,华为云在国家数据局的指导下,与城市、企业及伙伴共同探索并升级了“AI可信数据空间”新范式。该范式以“全域入湖、AI好用、可信流通”为核心,旨在解决AI数据治理的痛点。通过这一模式,客户能够基于已积累的业务数据,通过AI技术自动构建企业知识图谱,让业务人员可以通过企业大模型快速构建智能体应用,实现各类任务的智能化。这不仅大幅降低了AI应用开发的门槛,也使得企业数据资产能够真正释放其AI价值。

在满足客户“最终计算结果”方面,华为云通过昇腾AI云服务和Tokens服务提供了强大的支持。特别是在高吞吐场景下,华为云的Tokens服务性能优势显著。CloudMatrix384超节点能够在50毫秒时延的极致要求下,实现每秒2400次事务(TPS)的吞吐量,这刷新了行业纪录。除了对自有的盘古大模型提供优化支持外,华为云还广泛兼容并优化主流的DeepSeek、Kimi等开源大模型,确保它们在昇腾云上能够跑得更快、更好,为客户提供了多元化的模型选择和最优的运行效率。

AI原生思维:抓住智能时代的战略机遇

华为云在政务、工业、金融、汽车等多个重点行业市场份额位居第一,并在Gartner魔力象限的容器、数据库等九大产品领域成功入围,显示出其强劲的市场竞争力和技术创新实力。同时,华为云已将重大事故为零的纪录连续保持了756天,充分体现了其对安全、稳定、高质量服务的坚定承诺。这些成就的背后,是华为云对技术创新和客户价值的持续投入。

张平安指出,在智能时代,企业必须积极拥抱“AI原生思维”。他以蒸汽机被尝试应用于三轮车,从而推迟了火车发明四十年的历史案例告诫我们,如果仅仅将AI视为现有流程和应用的辅助工具,可能会错失AI带来的颠覆性机遇。AI原生思维意味着要以AI为核心来构筑一切,围绕AI重新构建应用、数据、流程和人员。这意味着:

  • 重新构建应用:设计完全以AI能力为基础的新一代应用,而非在传统应用框架上简单叠加AI功能。例如,将AI融入产品设计、供应链优化、客户服务等核心环节,实现从被动响应到主动预测和决策的转变。
  • 重新构建数据:建立AI-native的数据底座,将原始数据转化为结构化、可理解、可利用的知识,为AI模型提供高质量的“燃料”。这包括构建知识图谱、数据标签化、实时数据流处理等。
  • 重新构建流程:利用AI自动化和优化企业的运营流程,提高效率、降低成本,并实现更智能的资源分配和风险管理。例如,AI驱动的决策支持系统、智能制造流程等。
  • 重新构建人员:改变人与AI的协作模式。在未来,AI可能成为执行任务的主体,而人类的角色将更多地转向管理AI、控制AI的开关,以及进行更高层次的创新和战略决策。这将催生新的工作岗位和技能要求。

对于渴望通过AI构建领先优势的企业而言,只有通过AI原生思维,才能充分发挥AI的潜力,创新业务模式,提高运营效率,从而真正抓住智能时代的核心机遇,实现可持续的智能跃迁。

结语

华为云以其“算力黑土地”的战略愿景、独特的“大杂烩”技术优势、强大的昇腾AI云服务和Tokens服务,以及对AI原生思维的倡导,正在为全球企业提供坚实的智能底座。通过持续的技术创新、广泛的生态合作和对客户需求的深刻理解,华为云致力于成为千行万业智能升级的优选伙伴,共同开启一个以AI为核心的智能新纪元。