本文基于以下三份报告进行汇总、解释和二次整理:
- 华为《超节点发展报告
- 中兴《超节点技术白皮书
- H3C《超节点技术白皮书》
这几份报告都在讨论同一个问题:当 AI 大模型 进入 万亿参数、长上下文、多模态、智能体 和 大规模推理 阶段之后,传统“堆服务器、堆 GPU”的方式还能不能继续支撑下去?
答案并不简单。
GPU/NPU 数量当然重要,但在大模型时代,真正决定系统效率的,往往不只是“有多少卡”,而是这些卡之间能不能 高速交换数据,能不能共享更大的 内存空间,能不能被 统一调度,能不能在长时间训练中稳定运行。
这正是 超节点 开始被反复提到的原因。
一、从大模型训练的压力说起
过去我们谈 AI 基础设施,经常先看 单卡算力:一张卡有多少 TFLOPS,显存多大,显存带宽多高。
但大模型把问题变复杂了。
当模型参数从百亿、千亿走向万亿,单卡显存 放不下,单机 8 卡 也不够,训练任务就必须拆到更多 GPU/NPU 上执行。于是,系统里会出现多种并行方式,例如 数据并行、张量并行、流水线并行、专家并行、序列并行。
这些并行方式带来的直接结果是:计算单元之间需要频繁通信。
尤其是 张量并行 和 专家并行,它们不是偶尔交换一下数据,而是在训练步骤中不断发生 高频通信。MoE 模型里的 专家分发 和 结果聚合,也会产生大量 All-to-All 流量。
这时候,问题就从“卡够不够快”变成了“卡之间连得够不够快”。
华为《超节点发展报告》把这个问题概括为大模型基础设施面临的 系统性挑战:通信、功耗、散热、可靠性 和 运维 会一起成为瓶颈。报告中特别提到,千亿级模型的一次 梯度同步 可能产生 TB 级数据,传统网络很难轻松承受。
H3C《超节点技术白皮书》也指出,传统 1 机 8 卡 架构存在一个明显断层:机内互联 已经可以达到很高带宽,但 机间通信 仍主要依赖 RDMA 网络。集群规模变大后,多级交换、网络拥塞 和 长尾时延 都会影响实际训练效率。
换句话说,大模型训练 不再只是 单点算力 问题,而是 系统协同 问题。
二、什么是超节点
可以先用一句话理解:
超节点 就是通过 高速互联、统一内存编址、资源池化 和 软硬件协同,把多颗 AI 加速芯片 组织成一个逻辑上更接近“巨型单机”的 高密度算力单元。
这里有几个关键词。
第一,高速互联。
超节点 不是普通服务器之间用常规网络简单相连,而是尽量把更多 GPU/NPU 放进一个 高带宽、低时延 的通信域里。
第二,统一内存编址。
传统 分布式集群 里,不同节点的内存空间相互独立,跨节点访问通常要经过 网络传输、数据拷贝 和 同步。超节点 希望让更多设备共享 统一地址空间,让一个设备可以更直接地访问另一个设备的数据。
第三,资源池化。
计算、内存、存储、网络 不再只是绑定在某一台服务器里,而是可以被抽象成 统一资源池,根据 训练、推理、长上下文、KV Cache 等需求灵活调度。
第四,软硬件协同。
没有 通信库、编译器、调度器、运行时、运维系统 配合,超节点 只是昂贵硬件。真正的 超节点 一定是 芯片、互联、整柜、软件栈、液冷、供电 和 运维 共同构成的系统。
中兴《超节点技术白皮书》把 超节点 定义为通过 高速互联协议 与 专用交换芯片 构建的 高带宽域,也就是 HBD。它将数十至数百颗 GPU 在逻辑上整合为 统一编址、低延迟、高带宽 的协同计算系统。
H3C《超节点技术白皮书》则更强调工程形态:超节点 是由 CPU、GPU/NPU、DPU、内存、外存 等组件通过 AI 优化高速互联组成的 机柜级紧耦合算力单元,核心是 资源池化、平等协同 和 逻辑单一。
下面这张图可以帮助理解传统节点架构到超节点架构的变化。
图源:华为《超节点发展报告》,图 3.1。
三、超节点和传统 GPU 集群有什么区别
传统 GPU 集群 更偏 Scale-Out,也就是 横向扩展。
它的思路是:一台服务器不够,就增加更多服务器;一个机柜不够,就增加更多机柜;一个数据中心不够,就建设更大规模的数据中心。
这种方式适合很多 通用计算 任务,也适合一部分 松耦合任务。但大模型训练里,很多通信并不松散。训练过程中的 参数同步、梯度同步、专家路由、KV Cache 传输,都要求 低时延 和 高带宽。
超节点 更偏 Scale-Up,也就是 纵向扩展。
它的目标不是简单增加更多服务器,而是把一个 高性能计算单元 做得更大、更紧密、更像一个整体。你可以把它理解为:把原来 跨服务器、跨网络 的高频通信,尽可能收敛到一个更高速的 内部通信域 里。
H3C 报告中有一个很典型的对比:传统集群通常依赖 InfiniBand 或 RoCE 等标准网络协议,时延多在 微秒级;超节点 则会采用 NVLink、UB 等更面向加速器互联的技术,提供更高带宽和更低时延,并支持 统一内存地址空间。
这就是两者的核心差异:
| 维度 | 传统 GPU 集群 | 超节点 |
|---|---|---|
| 扩展方式 | Scale-Out,横向增加服务器 | Scale-Up,把更多芯片组织成紧耦合计算单元 |
| 通信方式 | 依赖通用网络和 RDMA 等机制 | 使用高带宽、低时延 Scale-Up 互联 |
| 内存模型 | 各节点内存相对独立 | 尝试 统一编址 和 内存语义访问 |
| 调度粒度 | 整机、整卡为主 | 更强调 资源池化 和 逻辑切分 |
| 适合任务 | 通用云计算、松耦合任务、中小规模训练 | 万亿参数训练、MoE、长上下文推理、AI4S、智能体 |
所以,超节点 不是传统集群的简单升级版,而是 AI 时代对 算力边界 的一次重新划分。
四、为什么传统算力集群不够用了
传统集群的问题可以概括为三堵墙:通信墙、内存墙 和 复杂度墙。
1. 通信墙
大模型训练 中,计算任务被切分到多张卡、多台机器上。每一步训练都可能涉及大量 同步 和 数据交换。
当通信发生在单机内部,带宽 和 时延 还比较可控;一旦通信跨服务器,就会进入更复杂的网络路径,经过 网卡、交换机、拥塞控制、协议栈 和 多级转发。
集群越大,通信越容易成为瓶颈。
华为报告提到,随着模型从 GPT-3 级别向更大规模模型演进,集合通信 和 跨节点 RDMA 压力会被显著放大。这个判断背后的意思是:参数增长不是唯一变量,通信复杂度 也在放大,而且可能放大得更快。
2. 内存墙
模型参数、梯度、优化器状态、激活值、KV Cache 都要占内存。
训练阶段,显存不够会影响 模型切分 和 并行策略。推理阶段,长上下文 会让 KV Cache 快速膨胀。智能体、多轮对话、RAG、多模态任务 又会继续增加内存压力。
如果每张卡只能守着自己的本地显存,资源利用率就会受到限制。
超节点 希望通过 统一内存编址 和 资源池化,让更多内存资源可以被统一管理、动态分配。
3. 复杂度墙
当集群进入千卡、万卡规模,故障不再是偶发现象,而是常态。
芯片、光模块、交换机、链路、液冷、供电、驱动、通信库、调度器,任何环节出问题,都可能让一个长周期训练任务中断。
所以 超节点 不能只看性能,还要看 RAS,也就是 可靠性、可用性 和 可服务性。
华为报告强调,超节点 稳定运行依赖 可靠器件、可靠网络 和 可靠系统。H3C 报告则用了大量篇幅讨论 训前巡检、拓扑可视化、训中监控、故障分析 和 自愈闭环。
五、超节点到底解决了什么问题
超节点 解决的问题,不是“让每张卡变得更强”,而是“让很多张卡协同得更好”。
可以拆成五个能力。
1. 更大的 高带宽通信域
超节点 把 高速互联 范围从单机内部扩展到 机柜级,甚至进一步扩展到 跨机柜。
中兴报告把这个区域称为 HBD,也就是 High-Bandwidth Domain。张量并行、专家并行 这类对通信要求极高的流量,越多留在 HBD 里,训练效率越容易提升。
2. 更低的 通信时延
普通网络通信往往要经过更长路径和更多协议处理。超节点 通过 专用互联、交换芯片、拓扑优化、流控机制 等方式,尽量降低设备之间的 端到端通信时延。
这对 小包通信、专家路由、推理阶段的 低时延响应 尤其关键。
3. 更统一的 内存访问方式
统一内存编址 让多个 AI 芯片 的内存空间不再只是孤岛。
中兴报告认为,统一内存编址 是解决多 GPU 协同效率和 数据一致性 的关键,也是 超节点 区别于普通分布式集群的重要前提。
H3C 报告进一步提出,未来 AI 工作负载会推动系统从显式 Read/Write、DMA 拷贝,走向统一 Load/Store 内存访问。
4. 更灵活的 资源池化
大模型训练、推理、推荐、长上下文、AI4S 对 CPU、GPU/NPU、内存、存储 和 网络 的比例要求并不一样。
传统固定配比容易造成资源浪费。超节点 通过 资源池化 和 软件定义调度,可以让资源按照任务特征动态组合。
华为报告以 KV Cache 为例,说明 多级存储资源池化 可以把 KV Cache 从单机显存限制中释放出来,为 长上下文 和 高并发推理 提供支撑。
5. 更强的 可靠性 和 可运维性
超节点 越大,故障影响范围 越需要被控制。
这要求系统具备:
训前巡检链路监控拓扑可视化故障预测故障隔离任务迁移Checkpoint 续训自动恢复
也就是说,超节点 不是只靠 硬件互联 跑得快,还要靠 软件 和 运维体系 跑得稳。
下面这张图展示了超节点系统架构的一个典型视角。
图源:H3C《超节点技术白皮书》第 15 页,图 1。
六、为什么推理也开始需要超节点
很多人容易把 超节点 和 训练 绑定在一起,认为只有 大模型预训练 才需要这种架构。
但三份报告都透露出一个趋势:推理 也在 集群化。
原因有几个。
第一,MoE 推理 会带来 专家路由 和 All-to-All 通信。
DeepSeek、Qwen 等模型路线中,MoE 已经成为重要方向。专家越多、并发越高,专家分发 和 结果聚合 的通信压力越明显。
第二,长上下文 会放大 KV Cache 压力。
当上下文从 32K、128K 走向 1M token,KV Cache 的显存占用会非常可观。单卡或单机很难始终高效承载。
第三,PD 分离 让推理阶段之间出现高速数据传输需求。
Prefill 阶段偏计算,Decode 阶段偏访存。把两者拆开可以提升资源效率,但 Prefill 和 Decode 之间需要传输 KV Cache,这对网络和内存访问提出了更高要求。
第四,智能体 会增加调用频率和状态管理复杂度。
智能体 不是简单问答,而是持续规划、调用工具、维护上下文、执行多步骤任务。多智能体协作 还会产生更复杂的通信和缓存需求。
因此,超节点 不仅是 训练基础设施,也会成为 高并发、低时延、大上下文推理 的重要底座。
七、超节点对智算中心意味着什么
如果只从 芯片 角度看 超节点,很容易低估它的影响。
超节点 真正改变的是 智算中心 的建设方式。
过去,数据中心更像是一堆 服务器、网络、存储 和机房设施的组合。进入 AI 时代以后,算力密度、网络带宽、液冷能力、供电能力、运维能力 会被一起设计。
中兴报告提出 AI 工厂 的概念:以 超节点 为核心,把数据输入高效转化为 Token 输出。这个说法很有启发性,因为它把智算中心从 资源池 推进到了 生产系统。
H3C 报告则从工程层面展开了大量细节:Scale-Up 网络、Scale-Out 网络、Frontend 网络 如何分工,液冷管路 如何部署,机柜承重、漏液检测、训前巡检、版本配套 和 运维平台 如何配合。
这说明 超节点 不是买几台高端 GPU 服务器 就结束了。它涉及完整 系统工程。
下面这张图展示了超节点集群组网的一种形态。
图源:华为《超节点发展报告》第 17 页,图 4.1。
八、如何判断一个系统是不是“超节点”
可以用几个问题来判断。
第一,它是否有 高带宽、低时延 的 Scale-Up 互联?
如果只是普通服务器通过通用网络堆叠,通常还不能称为真正意义上的 超节点。
第二,它是否支持 统一内存编址 或更高效的 跨设备内存访问?
这是 超节点 区别于普通 分布式集群 的重要特征。
第三,它是否具备 资源池化 和 逻辑切分 能力?
超节点 需要服务 训练、推理、混合负载、多租户 等不同场景,不能只是一个固定形态的硬件盒子。
第四,它是否有配套 软件栈?
包括 通信库、编译器、调度器、运行时、监控 和 运维平台。
第五,它是否考虑了 液冷、供电 和 可靠性?
高密度 AI 算力 一定会带来 功耗、散热 和 故障管理 问题。
如果这些能力都具备,它才更接近报告中讨论的超节点形态。
九、总结
超节点 不是“更大的服务器”,也不是“更多 GPU/NPU 的堆叠”。
它的本质是 AI 时代新的 算力组织方式。
传统集群的基本单元是 服务器,服务器之间通过网络协作。超节点 则试图把更多 AI 加速芯片、内存、网络、存储 和 软件栈 组织成一个更紧耦合的 逻辑计算单元,让大模型训练和推理中的 高频通信、内存访问 和 资源调度 更高效。
大模型越往前发展,基础设施越不能只看 峰值算力。
真正关键的问题会变成:
通信能不能跟上计算?内存能不能支撑长上下文和大模型?多卡多机能不能像一个整体一样协同?故障发生后任务能不能快速恢复?单 token 成本和能耗能不能降下来?
超节点 就是围绕这些问题出现的。
在后续文章中,我们会继续拆解:为什么 AI 集群正在从 Scale-Out 走向 Scale-Up,超节点 背后的 高速互联、统一内存编址、在网计算 到底是什么,以及华为、中兴、H3C 三份报告各自给出了怎样的技术答案。