华为,让384超节点和体系化方案成为互联网行业的AI破局利器!

187 阅读10分钟

车子要想行稳致远,除了动力要强劲,更要保养得当。对于身处数智时代的互联网企业来说,智算中心就是车,算力即是动力,而运维管理则相当于保养;三者缺一不可,且需相互配合。

而在这三大领域,华为都能为中国互联网企业提供完善的解决方案和服务。

华为中国政企互联网行业总经理 李腾

训练参数从千亿到万亿, 是指数增长的需求和复杂度

从2020年6月的GPT 3.0到如今的Grok 4,顶尖大模型的参数量在5年时间里增长了10倍;下一步,以互联网为代表的全球AI企业也在挑战10万亿参数量级。而与这种指数增长相对应,AI训推所需的硬件规模也从GPT 3.0时代的“数千张V100”级别增长至如今Grok 4所使用的“10万张H100”级别;同样是指数级的增长。

显然,在如此高速增长的需求和硬件规模之下,智算中心怎样规划建设、算力平台如何搭建、应采取哪些标准来进行运维……一系列问题已经成为关乎行业未来发展的关键。而其解决思路也相当明确,无外乎与上游硬件企业通力合作,从智算中心设计规划开始,以软硬协同、产业链配合的方式促进AI技术的发展与落地。

以上都是国际市场在推进AI技术发展过程中所产生的洞察和经验。而如果将视角拉回国内我们则不难发现,头部互联网企业虽在大模型质量和能力方面已部分达到国际领先水平,但AI训推所使用的硬件规模却普遍停留在2-3万卡的级别。

换言之,在市场需求和规模同样庞大的前提下,国内互联网企业有必要在短期内将算力规模扩展2-4倍来推动AI技术发展与落地。而这项工程无论从规模还是复杂度方面来看,都颇具挑战。

作为算、存、网、操作系统、AI开发框架等各类根技术的研发者,以及互联网行业的长期同行者,华为正在从标准、机制、能力等多个维度进行深入的分析和研究,探索如何搭建高效率、高可用、符合国内产业发展需求的体系化智算解决方案。

而华为在这些领域所取得的成果不仅包含FP16算力达288.7 PFlops的Atlas 900 A3 SuperPoD超节点(384超节点),更包含与之相匹配的一整套智算集成建设交付流程,和以保障业务稳定为核心的智能运维系统。

如此,华为便能为互联网行业铺就“智算中心+算力平台+运维管理”三位一体的AI发展之路,助力国内互联网行业在AI领域的持久高质量发展。

让智算中心也能快速高质量交付

超大规模智算中心的规划、建设和交付无疑是极端复杂的系统性工程;而在面向A3超节点时,其复杂性更将空前上升。而为了助力互联网客户实现算力水平的跃迁,华为也推出了算力平台服务解决方案,并能通过对应的规划设计和工程安装服务确保超节点系统的快速、高质量交付。

在规划设计阶段,华为能够依托专业设计团队和工具自动提取BOQ、HLD等关键信息,生成最优LLD组网设计表,并以此助力互联网用户搭建万卡规模的计算集群,提升设计效率、降低人因错误。

同时,针对A3超节点在“风火水电”层面的需求,华为也会将智算中心的L1(机房设备层)、L2(IT设备层)层进行联合规划设计,通过优化算/存/网设计、机柜布局、制冷配电系统、冷却液适配(A3超节点采用液冷散热设计)、二次管路设计、抗震底座设计、二次管路对接、小母线配置等方法来实现缩短工期、减少返工、提升项目可靠性及安全性等目标。

而在综合布线方面,华为也会按照HCCS(Huawei Cache Coherent System,华为一致性总线)的标准对线缆进行7个平面的综合设计,以实现更高的通讯效率及更合理的线缆布局。与此同时,华为施工团队也将在专业能力和完善流程的加持下,确保基础架构所需的数千跟光纤“0”插错、“0”断纤。

在智算中心层面,以A3超节点为代表的新一代基础架构需要更强大的、更复杂的支撑平台和更严苛的安装部署流程。而这也催生了算力平台与智算中心的统一设计规划需求。因此,华为不仅在推出持续增强的算力平台,更推出了将算力平台落地于智算中心的配套规划设计及部署安装服务,帮助互联网行业尽快将算力转化为生产力。

用384超节点实现顶尖算力

Atlas 900 A3 SuperPoD超节点由16个机柜组成,最大可配置384个超节点,能够提供288.7 PFlops的FP16算力和48TB的统一编址片上内存。用户可根据业务需求灵活分配训推资源、提升硬件利用率。

为保证384个NPU之间的通讯带宽并降低延迟,华为采用了400GE灵衢网络总线,并使用带宽承载力更高、密度更高QSFP-DD接口作为物理端口。由此,A3超节点不仅能实现NPU网络高速无收敛1:1互联,更可实现纳秒级的超低时延,比传统组网降低90%。

而在整机柜设计方面,A3超节点则以70%+的液冷散热覆盖率实现了更高的散热效率,可使系统整体功耗下降10%。而通过配置转换效率高达96.5%的电源模块和更优的全局池化爆发供电设计,A3超节点对市电的功率需求也能够降低20%。

此外,在可靠性和易维护性方面,华为A3超节点也采用了双总线设计、液冷+电源总线盲插、网络故障秒级切换、光模块通道抗损等一系列设计,使系统整体做到高可靠、易维护。

在算力平台方面,华为突破了机架和节点的限制,用384张NPU构建了具备超强算力的A3超节点,拓展了大模型训推的规模上限。超强性能+超大带宽+超高效率+超高可靠;A3超节点不仅是一套落地可用的基础架构,更是互联网行业实现AI突破的利器。

面向场景的智能运维

系统复杂度的空前提升势必会带来更大的运维技术挑战和更高的运维工作压力,而一旦出现故障或错误,长时间的停机和模型重新加载也将带来巨大的成本和业务损失;是互联网企业在激烈竞争中的不可承受之重。

由于需要同时管理风火水电、算存网等多个领域的海量系统,“分而治之”的传统运维思路早已无法应对。因此,华为选择以场景为核心,以智能运维管理系统为抓手,构建完善的运维保障机制和关键能力;以实现风险预防、变更可控和故障的快速恢复。

为此,华为对运维关键场景进行了识别,并通过运维系统和相关服务帮助互联网用户形成对应的处置能力。

网络可视及被动测量能力:以可视化方式还原网络路径和实施端口流量时序图,为网络运维提供精确、实时的“上帝视角”。

液冷风险及时发现能力:通过系统内部的海量传感器提前识别芯片超温、漏液和凝露风险,避免硬件短路和损坏,保护硬件资产和业务安全。

故障处理与快速恢复:通过远程支持+现场保障体系实现问题的快速响应、快速处理。

数据中心L1、L2联动处置与操作方案:通过L1与L2层设备的联动来解决服务器、液冷机柜、工质液、CDU、集成管路等5类设备10大场景的各种问题。

存算网跨域故障AI处理能力:借助AI算法和日志大数据实现自动化规则编排和关联诊断,可将故障诊断时间缩短至5分钟、故障类型覆盖率提升至80%、诊断准确率可达95%。

推理集群AI诊断能力:基于专家能力进行AI算法训练,以实现故障的根因分析功能,并提升异常状态关联分析的准确率。

统一作业能力:将网络变更操作划分为3个阶段、8个环节,融合管理与技术手段,从而“让合适的人、用正确的方法”来实施网络变更。

通过组织、流程与平台适配确保网络稳定与安全:通过网络设计、业务规划、建设维护、运营管理等方法方案来构建三道防线(故障不发生、业务影响小、用户感知轻),继而帮助互联网用户形成体系化的技术保障能力。

AI是互联网的冲刺赛、更是拉力赛。通过关键场景识别和保障能力构筑,华为将通过现场和线上的服务经理、服务工程师支持,以及提升服务作业中心、eCare应用、DME工具、NCE/AOC/数字地图工具、Hi-Care平台等一系列工具平台,帮助互联网用户在运维过程中实现“隐患发现早、问题解决快、性能状态优、运维效率高、关键时刻稳”的效果。

跨越复杂性,让AI飞得更高、落得更稳

互联网行业是推动AI技术发展和产业落地的中坚力量,而华为则是算存网及相关平台技术方案的提供者和行业的同行者;二者的合作不仅能以产业链形式推进AI技术与算力的融合发展,更能让互联网行业用户跨越系统复杂性的藩篱,将更多精力投入到AI的应用和场景创新之中。

作者:华为技术有限公司中国政企互联网行业总经理 李腾