说到大模型训练和智算中心网络,大家有时会听到参数面网络、样本面网络、业务面网络这些概念,有时会听到Scale Up、Scale Out网络,还有时会听到前端网络和后端网络,这些概念,那么这些网络概念有什么区别吗?今天我们就来解析一下。
大模型训练及智算中心整体网络架构
大模型训练和智算网络架构通常包括以下几个主要的部分:参数面、样本面、业务面、存储面及管理面等几个网络平面(注,根据业务量的实际情况,部分平面可以共用):
编辑
参数面网络: 承担模型训练过程中AI计算节点之间参数交换的流量(多GPU节点间梯度交换),用于GPU服务器集群内部互联,是智算中心典型业务AI训练多GPU卡并行工作的关键。
样本面网络: 承担模型训练过程中AI计算节点访问高性能存储系统的流量,如启动阶段的AI计算节点加载训练任务镜像和AI模型、训练时读取样本数据集、故障时CheckPoint文件写入存储系统和训练完成时模型写入存储系统等。
业务面网络: 承载来自AI平台区或外部用户下发任务和各类数据,并将AI训练、推理等结果进行返回,也用于通用算力集群(可以与通用算力集群合并使用),网络流量的带宽需求不大。
存储面网络: 在云场景下,承载存储面部分数据报文,如启动阶段的AI计算节点加载训练任务镜像和AI模型等。
带内管理网络: 各类设备的监控和管理,资源利用率监控、故障告警、下发配置等,整体带宽需求低。
BMC 带外管理网络: 实现服务器硬件状态监测、远程开关机、重启等功能
Scale up 与Scale out如何区别
AI智算集群有两种扩展模式,一种是Scale Up,另一种是Scale Out。
Scale Up是向上扩展(纵向扩展),增加单节点内的GPU/NPU算卡数量(也就是通常所说的超节点的大小)。Scale Out是向外扩展(横向扩展),增加节点的数量,扩大整体组网规模。
编辑
超节点主要目的是为应对AI大模型训练与推理需求而发展起来的新型算力基础设施架构,它通过高速互连技术将大量计算单元(如GPU、TPU、NPU等)紧密集成,构建一个高带宽域(HBD)。是指在一个物理机柜或一组紧密耦合的计算单元内部,通过高密度集成计算单元和专用的高速互联技术,实现近似单机性能的超大规模并行计算系统,旨在突破传统服务器内部以及服务器之间通过PCle或标准以太网互联的带宽和延迟瓶颈,将数十甚至数百个加速器紧密连接,形成一个逻辑上的超大服务器,以支持张量并行、专家并行等对内部通信要求极高的并行计算任务。
从组网技术的角度来看,Scale Up使用NVLink(英伟达)、UB(华为,以前单节点内部用HCCS)、Infinity Fabric(AMD)、UALink、SUE(Scale Up Ethernet,博通)等,Scale Out使用RoCE、IB。
Scale Up解决的是单机、单节点或超节点内部(即一个高带宽域HB内部)的GPU与GPU、GPU与CPU等的通信问题。Scale-Up核心目标,是在单一服务器节点或超节点内部将多个GPU紧密耦合,使其协同如一个统一而强大的计算单元,关键在于实现极致的低延迟和高带宽通信。
Scale Out解决的是多机、多节点或多个超节点之间的通信问题。旨在将成百上千个超节点连接成庞大集群,以支持单一节点无法完成的大模型训练任务,其网络性能直接决定了集群的整体扩展效率。
下图是华为CloudMatrix超节点的Scale Up和Scale Out逻辑。
互连所能提供的水平,以高效处理加速器间繁重的通信需求。这些加速器频繁交换大型张量或流水线并行数据,需要通过多链路均衡分发数据以避免拥塞并降低通信延迟。在不增加延迟的前提下实现高带宽,架构通常采用单级网络拓扑,即数据包从源到目的地仅需经过一个交换机,没有中间跳转。Scale Up互连通常包含多个并行的互连平面,每个平面由专用的HBD(高带宽域)交换机组成。每个GPU与所有HBD交换机之间均有专用链路。
以英伟达的单服务器节点(如A100)为例,如下图所示,GPU与NVSwitch通过服务器主板直接连接。
编辑
下图是NVL72超节点(单机架)的Scale Up组网架构
编辑
每个B200与18个NVSwitch分别连接(4条1.8TB/s,合计7.2TB/s双向带宽),总计1844*18 = 5184个差分对。每根线缆包含1个差分对,整机柜采用5184根铜缆进行连接。
编辑
当单个超节点内部GPU数量增加到一定程度以后,就会扩展到2级的胖树无阻塞组网架构,例如,华为CloudMatrix384,如下图所示:
编辑
CloudMatrix384超节点内部的UB互联采用两级架构连接,第一级是每个昇腾910C计算节点内部的板载UB交换芯片,第二级是位于灵衢总线柜内的UB交换机设备。采用无阻塞设计,第二级UB交换机被划分为7个独立的子平面。每个子平面包含16个L2 UB交换芯片,每个第二级交换芯片提供48个端口。每个节点内部,7个板载第一级UB交换芯片与这7个第二级子平面一一对应。每个第一级UB交换芯片扇出16条链路(一条链路连接到其对应子平面的每个第二级UB交换芯片)。此配置可确保节点到第二级交换矩阵的聚合上行链路带宽与其内部UB容量精确匹配,从而保持整个超级节点的无阻塞特性。
由于涉及多机柜组网,连接距离超过了铜缆的支撑范围,因此采用了全光的连接方式,在Scale Up层面,每张NPU卡有7个400G光口,通过Level 1交换机的总计 87=56个400G光口分别接入Level 2交换机实现Scale Up组网,从而组成跨多机架的Scale Up网络,机架间的Scale Up网络对应使用3847*2=5376个400G光模块和2688根光纤连接。
那么Scale Up网络是用光连接还是用铜连接更好呢?从上面的分析,也可以简单的看出,如果单个超节点的规模可以控制在一个机架范围内的话,铜缆是比较好的一个选择,这主要是由于Scale Up距离通常较短,铜缆在此范围内兼具纳秒级低延迟(无需串并转换及光电转换延迟)与成本优势,能避免光器件带来的额外成本和功耗;但是如果单个超节点规模超过单机架(Rack)进行部署时,铜缆的传输距离就会成为高速连接的最大阻碍(1~3米范围),此时的跨机架的Scale Up就需要通过光链路来实现,以适配更大规模的算力需求。这也是华为CloudMatrix384超节点采用光互联的原因。
前端网络与后端网络如何区别?
在智算组网中,我们经常听到大家讨论前端网络和后端网络,那么怎么区分前端还是后端呢,比较简单的理解就是,是以AI算力服务器集群为基准,面向用户一侧的是前端网络,用于GPU之间参数同步的是后端网络。如果回到本文的第一张架构图,参数面网络是后端网络,其他的业务面、存储面、管理面等都可以归结为前端网络。
前端网络: 主要用于智算中心与外部系统的连接,承担存储访问、管理通信、用户接入等任务。例如,连接分布式存储系统以加载训练数据、模型权重保存,集群监控与运维管理,以及用户任务提交、结果获取、用户交互等。前端网络对延迟容忍度较高,但需保障高总带宽和稳定性,以满足数据传输和管理需求,通常采用以太网连接实现。
后端网络: 专注于GPU服务器之间的高速互联,为大模型训练中的参数同步、数据交互提供低延迟、高带宽的通信通道,是支撑AI训练的核心网络。后端网络的主流技术方案是IB和RoCEv2。
这里特别说一下,就是存储面,可能涉及普通存储和高性能存储,普通存储要求不高,可以设置单独的存储面,也可以和业务面共同一张网络;高性能存储需要承担模型训练过程中AI计算节点访问存储系统的流量,如样本数据的读取、Checkpoint的读写等,随着模型扩展,样本面网络要求支持大带宽、低时延、智能无损等特性,因此也需要使用RoCEv2或IB。
对于存储节点而言,如果以存储节点为参照物,实际上也可以存储的前端网络和后端网络,存储的前端网络对应的就是本文的第一张智算中心整体架构图中的样本面,存储后端网络主要用于数据同步与副本管理、故障恢复与数据重建等,存储的后端网络在智算中心整体架构图中没有体现。
编辑
由于AI 应用大爆发,对于高速光通讯的需求急剧提升,目前AI服务器主要聚焦 Scale Up(垂直扩展)、Scale Out(水平扩展)两种扩展方向,近期英伟达又提出了Scale Across的概念,为业界增添一个发展方向。通过超低延迟网络将城市级、国家级甚至全球分布式数据中心连接成逻辑上的“十亿瓦级AI超级计算机”,支持跨域实时推理和训练。
最后我们来进行一下小结,通过前面的分析,我们可以看出,参数面网络、样本面网络、业务面网络这些概念实际上是智算架构下不同的功能分区网络;Scale Up网络和Scale Out网络是相对于单节点(包括超节点)纵向扩展提升单体性能和多节点横向扩展提升整个系统性能而言的;前端网络和后端网络是以AI算力服务器集群为基准,面向用户一侧的是前端网络,用于GPU之间参数同步的是后端网络。不同的分类方式对应不同的叫法。
智算中心组网的通常架构
智算中心组网有多种形式,如CLOS、Dragonfly、Slim Fly、Torus等,此外还演进出了多种变种的组网模式,如Rail-only、Rail-optimized、MPFT、ZCube等,其中,胖树CLOS架构由于其高效的路由设计、良好的可扩展性及方便管理等优势,在大模型训练场景下被广泛应用,通常采用Spine-Leaf两层CLOS架构,两层架构无法满足规模扩展时,可以增加一层Super-Spine来进行扩展。
两层CLOS架构
编辑
三层CLOS架构
编辑
Rail-only架构:MIT于2023年提出Rail-only网络架构,Rail-only网络保留了HB域和Rail交换机,移除了Spine交换机,可以显著降低网络成本和功耗。
编辑
以51.2T的交换机组网为例,8台51.2T的交换机(128 x 400G端口),就可以组成一个千卡训练集群。
Rail-optimized胖树架构(Rail-Optimized Fat-Tree,ROFT架构),如下图所示,在多轨道网络架构中,AI训练产生的通信需求,可以用多个轨道并行传输加速,并且大部分流量都聚合在轨道内传输(只经过一级交换),小部分流量进行跨轨道传输(需要经过二级或多级),从而减轻网络通信压力。
编辑
双平面网络架构
阿里云2024年提出双端口双平面组网架构,目前已经应用于HPN-7.0,该架构的目的主要是为了提升性能、增加可靠性、避免哈希极化,这种多轨-双平面的设计模式在ROFT架构基础上,将每个网卡的400G端口拆分成双端口2*200G,分别连接到两个不同的Leaf(图中的ToR交换机)交换机,Leaf交换机下行400G端口被拆分为两条200G链路,连接不同网卡端口。
编辑
HPN双平面设计具有如下主要特点:
- 消除哈希极化:在传统网络中,大模型训练的低熵、突发流量易导致哈希极化,使流量分布不均。双平面设计将ToR交换机分为两个独立组,流量进入上行链路后路径固定,避免了汇聚层的哈希极化,确保流量均匀分布,显著降低队列长度,提升网络性能;
- 扩展性提升与成本控制:两层组网即可容纳15K以上的GPU,相比传统3层CLOS架构减少一层网络,降低部署成本;
- 增强可靠性与容错能力:GPU双上联连接两个独立ToR交换机,消除单点故障风险;故障时,仅需更新局部ECMP组,无需全局控制器介入,恢复效率提升。上述特点提高了网络的容错能力,保障大模型训练的稳定性。
多平面网络架构
2025年5月,DeepSeek团队发表的文章(Insights into DeepSeek-V3: Scaling Challenges and Reflections on Hardware for AI Architectures),参见www.arxiv.org/pdf/2505.09…
DeepSeek-V3采用基于IB的多平面两层胖树网络(Multi-Plane Fat-Tree,MPFT)替代传统的三层胖树架构,该架构下,每个节点配备8块GPU和8个400Gbps IB NIC,每块GPU对应一个独立的IB NIC,属于不同的“网络平面”(Plane),每个节点8块GPU卡对应连接到8个不同的Plane(即8个两层胖树平面)。交换机采用64 x 400G的IB交换机,在两层胖树网络架构情况下,可以最大接入16,384个GPU(一个Plane包括32个Spine和64个Leaf,可以接入64 x 32个GPU,一共8个平面16,384个GPU),从而实现两层万卡集群,涉及跨平面流量交换时,必须通过节点内转发(Intra-node forwarding)。
编辑
这种多平面组网模式的优点与双平面组网类似,唯一的区别是每个GPU是单上行连接到独立的平面,不具备单卡双上行的容错能力:
- 成本更低:相比三层胖树架构,MPFT可节省高达40%的网络成本;
- 更高的可扩展性:理论上支持最多16,384个GPU;
- 流量隔离:每个平面独立运行,避免跨平面拥塞。
论文中对几种组网模式进行了比较(FT2-两层胖树架构、MPFT-多平面胖树架构、FT3-三层胖树架构、SF-Slim Fly架构、DF-Dragonfly架构):
编辑
由此可以看出MPFT在每节点成本、扩展性等方面存在明显的优势。
但是,上面的这种MPFT并非最佳的实现模式,比较理想的多平面组网模式如下图所示:
编辑
每块网卡配备多个物理端口(这里是4个200G接口),每个端口连接至独立的网络平面(类似阿里云HPN7.0的双平面的模式,只不过HPN7.0是每块网卡2个接口)。单个QP(Queue Pair)可同时利用所有可用端口进行数据包收发。
我们把这个多平面部署图的局部放大细化,如下图所示:
编辑
这里以102.4T交换机为例,提供128个800G端口或通过Shuffle提供512个200G(关于Shuffle我们将在后续的专题中加以详细介绍,如果采用Shuffle内置的话,交换机可以直接提供512个200G的链路,也可以采用外置Shuffle Box或Breakout Shuffle的模式进行光纤链路分配和映射),每个GPU通过4个200G的分别连接到4个不同Plane平面,用一个QP驱动4个port,进行逐包负载均衡选路,这种模式对MoE all-to-all流量更友好。
详细组网如下图所示:
编辑
在两层4平面组网下,也可以实现16,384个GPU的接入(需要注意的是,此时由于每个网卡实际接入了4个200G的端口,因此,两层4平面组网下的交换机数量也有所增加,需要1,024个Spine和2,048个Leaf,是单端口MPFT组网交换机数量768的4倍)。
编辑
另外,为了实现上述功能,对网卡方面也提出了新的要求,需要网卡支持多平面通信,可以实现QP数据包在多个平面上的负载均衡,另外,由于数据包通过不同平面到达时存在乱序的情况,这就要求网卡能够原生支持乱序处理功能。
当前英伟达的最新CX-8已原生支持4个网络平面(4-Plane),可以在一个QP上实现多路径数据包喷洒(multi-path packet spraying),并支持硬件级乱序包处理,确保数据一致性。
综上,在Scale Out组网扩展方面,三层组网变二层组网、二层万卡/十万卡、多端口多平面组网可能是未来一段时间的发展大趋势。
在AI大模型训练场景中,智算集群内网络架构的优劣对GPU服务器内外的集合通信存在极大影响,智算集群需支持万卡及以上的并行能力,因此,设计大规模、高可靠、低成本、易运维的优质网络架构,对于满足大模型训练的大算力、低时延和高吞吐需求具有重要意义。
本文我们就重点看一下业内的万卡、十万卡的组网方案,本文不做过多的技术方面的详细阐述,重点呈现给读者各厂家的大模型组网拓扑,满满的干货,下面的组网模型,基本都是各厂家公开信息中提及的,小编进行了细化,个别地方可能与实际情况略有出入,仅供参考!
多级CLOS架构组网
之前的文章中我们提到过基于叶脊交换机胖树架构,两层架构无法满足规模扩展时,可以采用类似Facebook的三层组网架构,增加一层Super-Spine来进行扩展。
编辑
编辑
这种架构采用1:1无收敛设计,可以通过扩展网络层次提升接入的GPU节点数量,该架构的本质是多级CLOS架构网络,也是目前采用的比较多的智算网络架构。
具体到不同的客户在进行CLOS架构组网时,又会根据实际的情况,对网络结构进行调整,GPU服务器的接入也会区分为多轨接入和单轨接入,我们在后面的案例中,会看到两种接入形式的区别,其中,多轨接入是指GPU 服务器上的8张网卡依次接入8台Leaf交换机,多轨接入方式集群通信效率高,大部分流量经一级Leaf传输或者先走本地GPU服务器机内代理再经一级Leaf传输(如:不同服务器的同轨GPU直接通过直连的Leaf进行传输;不同服务器的不同轨GPU进行通信,先在服务器内转换成同轨通信,再通过直连的Leaf进行传输);单轨接入方式是指GPU服务器上的8张网卡全部接入同一台Leaf交换机,该方式集群通信效率偏低,但在机房实施布线中有优势,若Leaf 交换机发生故障,多轨接入方式所影响的GPU服务器数量多于单轨接入方式。
在组建大规模网络时,除了要考虑网络拓扑以外,还需要综合考虑并行计算模式、功耗、可靠性与故障恢复、成本等多方面的因素,本文重点是聚焦在网络拓扑方面,下面我们来具体看一下业内主要大模型的组网架构。
HW 大模型组网
HW昇腾GPU建议采用的是单轨接入模式:
编辑
- Spine(CE16808,8槽位,最多提供288*400GE):16台
- Leaf(CE9860,32*400GE):288台
- 昇腾910B服务器:288*4=1,152台
- 昇腾910B网卡(200GE):1,152*8=9,216卡 (接近万卡集群)
通过更换更大容量的Spine、Leaf设备,可以进一步扩展至十万卡集群:
编辑
- Spine(CE16816,16槽位,最多提供576*400GE):128台
- Leaf(CE16808,288*400GE):576台
- 昇腾910B服务器:576*32=18,432台
- 昇腾910B网卡(200GE):18,4328=147,456卡 ( **10*万卡集群)
腾讯星脉2.0组网
腾讯星脉2.0组网采用的是多轨接入模式,两级Spine-Leaf组网下的网络架构如下,接入和汇聚均采用51.2T交换机:
编辑
-
胖树结构,无收敛,多轨架构
-
汇聚交换机:SS(128400GE),6416=1,024台
-
接入交换机:SL(128400GE,其中上行64400GE,下行128200GE),16128=2,048台
-
GPU服务器:128*128=16,384台
-
GPU卡:16,384*8=131,072卡(最大理论值)
每个****Block : 1,024****卡
两层Spine-Leaf组网理论值: 131,072****卡
在更大规模组网下,可以使用多Pod的3层组网架构,如下图:
编辑
-
胖树结构,无收敛,多轨架构
-
核心交换机:SC(128400GE),6464=4,096台
-
汇聚交换机:SS(128400GE),6416*8=8,192台
-
接入交换机:SL(128400GE,其中上行64400GE,下行128200GE),1664*8=8,192台
-
GPU服务器:128648=65,536台
-
GPU卡:65,536*8=524,288卡(最大理论值)
每个****Block : 1,024****卡
每个****Pod : 65,536****卡
最大组网理论值: 524,288****卡
百度大模型组网
百度基于IB的多轨接入组网模式如下:
编辑
-
胖树结构,无收敛,多轨架构
-
核心交换机:SSP(40400GE),2020=400台
-
汇聚交换机:LE(40400GE),208*5=800台
-
接入交换机:ToR(40400GE),820*5=800台
-
GPU服务器:20205=2,000台
-
GPU卡:2,000*8=16,000卡
每个****Group : 160****卡
每个****Pod : 3,200****卡
最大组网理论值: 16,000****卡
百度基于RoCE的多轨接入组网模式如下:
编辑
-
胖树结构,无收敛,多轨架构
-
核心交换机:SSP(128400GE),3232=1,024台
-
汇聚交换机:LE(64400GE),328*16=4,096台
-
接入交换机:ToR(64400GE),832*16=4,096台
-
GPU服务器:323216=16,384台
-
GPU卡:2000*8=131,072卡
每个****Group : 256****卡
每个****Pod : 8,192****卡
最大组网理论值: 131,072****卡
字节大模型组网
字节大模型组网采用多轨接入模式,之前交换机采用B4020,可以提供64400GE;最新的51.2Tbps交换机B5020,可以提供64800GE。
编辑
-
胖树结构,无收敛,多轨接入
-
核心交换机:SC(64*400GE),32台
-
汇聚交换机:SS(64400GE),322=64台
-
接入交换机:ToR(64400GE),84*2=64台
-
GPU服务器:6442=512台
-
GPU卡:512*8=4,096卡
单个****Core-pod ,含2个****Spine-block ,每个Spine-block含4个ToR-group每个ToR-group含512卡,单个Core-pod含4,096卡
多轨接入情况下,按8轨组网模式,可以接入8个Core-pod( Core-pod数量可以根据情况进行扩展)
编辑
- 胖树结构,无收敛,多轨接入
- 核心交换机:SC(64400GE),328=256台
- 汇聚交换机:SS(64400GE),322*8=512台
- 接入交换机:ToR(64400GE),8428=512台
- GPU服务器:6442*8=4,096台
- GPU卡:4,0968=32,768卡(交换机使用51.2Tbps的B5020,即64800GE以后,可以扩展至10万卡集群)
阿里云HPN-7.0大模型组网
组网采用的是多轨接入模式,两级Spine-Leaf组网下的网络架构如下:
编辑
-
接入层收敛比:1.067:1(64/60,备用端口不考虑)
-
汇聚交换机:SS(128400GE),602=120台
-
接入交换机:ToR(128400GE),1616=256台
单Pod中包含15个****Segment ,每个Segment包含1,024个主GPU卡 +64个备GPU卡,合计单Pod包含15,360主GPU****卡 +960个备GPU****卡
通过扩展Pod,可以将集群规模提升到十万卡集群,甚至更高。
编辑
-
阿里根据其训练任务流量特性,选择Spine-Core之间采用15:1(120:8)的收敛比设计
-
核心交换机:SC(128400GE),642=128台
-
汇聚交换机:SS(128400GE),12016=1,920台
-
接入交换机:ToR(128400GE),1615*16=3,840台
单Pod中包含15个****Segment ,每个Segment包含1,024个主GPU卡 +64个备GPU卡,合计单Pod包含15,360主GPU****卡 +960个备GPU****卡
16个Pod最多可以接入245,760个GPU****卡
小结
上面概要介绍了BBATH常见的万卡十万卡大模型组网拓扑结构,具体组网情况,会依据实际条件进行综合考虑,万卡十万卡大模型的网络拓扑不仅仅受限于网络设备本身,也要综合考虑并行计算模式、功耗、可靠性与故障恢复、成本等多方面的因素。