最近半年,被MoE技术加持的DeepSeek-R1/R2、Qwen3、腾讯混元等大模型产品爆火,而更好的效果、更低的总体计算量和更高的并行性也让MoE所代表的“稀疏激活”成为大模型技术发展的新方向。
与此同时,MoE也对基础架构提出了两大新需求:一是单卡的显存容量,二是集群的网络性能。对于前者而言,新一代高端GPU早已用80甚至141 GB的HBM显存容量为技术进化铺平了道路;但对于MoE背景下的算力集群网络如何搭建,目前仍是业界难题……
通往AGI的道路上, 网络正变得更加重要
借助参数稀疏激活特性,MoE能够在降低整体算力需求的前提下将大模型的参数量从过往的千亿级别,快速提升至以Grok3、Switch Transformers、GLaM等为代表的万亿级别。同时,其多专家分工协作的特性也更像人脑的思维运作逻辑。因此,不少人都将MoE技术视作通往AGI(通用人工智能)道路上的关键技术节点。
然而对基础架构来说,参数量快速提升情况下的稀疏激活和多专家协作却意味着算力集群需要在更大范围内进行节点间通讯,也就是我们常说的All to All通讯模式。与传统大模型集群网络通讯的All Reduce模式不同,All to All模式不仅会带来更庞大的数据通讯总量(如果将All Reduce的网络通讯量视作N,那么All to All模式的总体通讯量则为N的平方),更会让通讯量在集群内的分布变得无法准确预测。
显然,All to All通讯模式对于新一代算力集群的网络规划是更加巨大的挑战。因为无论网络拥塞出现整体还是局部,以太网的丢包特性都会让集群的吞吐量极速降低,继而导致训练中断。
就像为一个无法预测交通高峰的超级城市规划路网,我们能做的除了提高道路宽度之外,就是为每个人定制一份出行指南。思路很简单,如何实现才是关键!
从Disaggregated Distributed Chassis 到Diversified Dynamic-Connectivity
Disaggregated Distributed Chassis译成中文是分布式机框解耦,脱胎于OCP项目,旨在将传统框式网络设备的多种功能解耦,并使用分布式的设备组合来实现相同目标,由此打破传统网络设备在大规模数据中心部署时所产生扩展性、灵活性和成本等问题。换言之,传统Disaggregated Distributed Chassis的核心理念就是分布式网络。
而近期,新华三则对DDC架构提出了全新的定义:Diversified Dynamic-Connectivity多元动态联接,即实现多元算力的联接与动态互联。在新华三看来,这一定义不仅强调了网络连接的多元性与动态性,更能全面体现DDC架构的真正价值和效果。基于此,新华三也推出了新一代无损网络解决方案,其所要应对的正是All to All通讯模式所带来的更高通讯量,以及在宏观和微观层面可能产生的网络拥塞问题,为大模型和AGI的后续发展铺就网络之路。
新华三集团交换机产品线首席产品经理张鸿凌表示:基于DDC架构的新一代无损网络方案主要解决智算集群当下所面临的负载均衡、拥塞控制和网络可靠性等三方面问题。相对传统组网方案,有效带宽提升了107%,并且能够应对1千至7万节点的组网问题。更重要的是,通过创新的信元交换技术,方案能够实现100%的链路负载均衡,继而彻底解决网络拥塞和训练中断等问题。
新华三新一代无损网络解决方案在网络构型上类似于Spine-Leaf架构,其中Spine层由NCF交换机组成,Leaf层则由NCP交换机组成。在解决网络拥塞、实现100%无损传输方面,新华三方案则有两手准备,即“拓宽路网”和“提高出行效率”。
1 、智算网络带宽、容量全面升级
在NCF层,新华三推出的S12500AI系列交换机最高可提供128个800G OSFP信元端口,并实现4096 Tbps的交换容量,以应对超大规模集群和All to All通讯模式所带来的顶级压力。在NCP层,S12500AI系列多款交换机支持400G至800G等多种端口规格,灵活适配不同规模与算力需求的节点组网。同时,S12500AI系列交换机也提供了对RoCE v2版本的支持,在与对应的智能网卡搭配使用时,能够进一步降低延迟、提升吞吐量。
2 、依托信元交换提升效率
过往,面向大模型的算力集群在组网时通常会使用基于流的ECMP(等价多路径)策略,并以此来实现让同一数据流使用固定路径的效果。而后再通过调整优化来实现负载均衡。但在面对All to All这种难以预测流量特点的通讯模式时,这种基于流的ECMP策略便很难进行针对性的优化,容易出现网络拥塞,限制了集群规模和整体效率。
而DDC架构则是将传统的流打散成细粒度极小且长度固定的信元,由此来“填充”网络中的带宽,以实现更高的带宽利用率。所以,只要交换机能够提供足够的端口带宽和交换容量,智算网络就不会出现整体或局部的网络拥塞,网络带宽提升所带来的用户收益也会更加显著。与“用瓶子装液态水的效率要远高于装方形冰块”原理类似,DDC架构就相当于为每个信元规划了交通路径,动态消减随时可能出现的交通高峰,避免出现交通瘫痪。
根据Tolly实验室进行的实际测试,在All to All流量模型下,基于DDC架构的RoCE网络性能可媲美InfiniBand,且消息尺寸越大效果越佳,全字节平均提升2.5% 。这一结果充分验证了DDC架构在AI训练场景中的领先性。
既是无损网络, 也是开放生态
随着智算进程的加速推进,算力基础设施生态日益完善,多元算力组件的适配挑战也愈发凸显。对此,新华三联合生态伙伴基于OSF 架构制定DDC标准,以BGP作为标准协议,解决多厂家NCF/NCP设备相互对接,协同调度的问题,推动网元异构互联,极大的提升了网络建设和拓展时的灵活性。该标准体系的制定不仅展示了新华三在无损以太技术领域的深厚积累,还将促进产业协同,打破厂商壁垒,构建开放智算生态。
从万亿大模型到以网强算, 新华三握紧基础架构新机遇
万亿大模型很强,但这绝不是人工智能技术发展的终点。未来还会有参数量更多、效果更强的大模型产品问世,甚至还会诞生不同于当前CNN技术的新架构。但无论上层技术趋势如何变换,其对底层算力的需求都会越来越高。这意味着行业总是需要用更大、更高效的集群来应对人工智能领域的新需求。而高速无损网络正是构建这类集群所必须的前提条件。这就是当前基础架构市场的最大机遇所在
在此基础上,新华三的DDC概念和对应的无损网络解决方案则能用更大的带宽和更高的转发细粒度来避免网络拥塞。换言之,在新华三选择的DDC路径之上,带宽的利用率更高,构建无损网络的挑战也更少。无论用户选择更大规模的集群,还是更高算力的节点,新方案总能实现令算力整体增长的目标。而这也正是新华三DDC概念和无损网络解决方案在下与未来的核心价值所在。
编外:在传统数据中心里,人们用集中式的网络联接了分布式的业务架构;而在未来的智算集群当中,我们可能将遇到一个用分布式网络联接集中式业务的局面。网络与算力的螺旋攀升总是如此奇妙,引人着迷。