全球领先的万卡超集群,遇上开放的生态架构,最终凝结为两个对千行百业而言最实在的价值:开发效率翻倍、算力使用成本大幅降低。
作者丨谢 俞
媒体丨算力网
2026年开年,千行百业继续“AI狂飙”,随之而来的,是全球范围的算力饥荒越来越严重:
模型越聪明,参数和计算量就越大;用户越多,需要的“并行处理能力”就越强。
马年到了,行业一边让AI马力全开,一边为天价的算力账单发愁。如何让算力像自来水一样,开闸即来、稳定可靠、计价普惠?这成为了国家层面的战略命题。如今,我们或许迎来了产业拐点:
2月5日,中科曙光为国家超算互联网核心节点提供的3套scaleX万卡超集群同时上线试运行,成为了全国首个实现3万卡部署、且实际投入运营的最大国产AI算力池,全面覆盖AI大模型训练、高通量推理、AI for Science等大规模算力场景。
在行业看来,一口气同时上线3套万卡集群,就像同时让3艘航母形成战斗力,展现的是顶尖的系统集成、工程组织和运营保障的综合实力,标志着我国超大规模智算基础设施的建设与运营能力迈入世界前列!
支撑起这个国家级“算力心脏”的scaleX万卡超集群,究竟有何过人之处?它绝非简单的硬件堆砌,而是一个充满“黑科技”的系统工程。
第一,是“算力集装箱”,全球首创的高密度机柜,想象一下,把过去需要一整个数据中心机房才能承载的算力,极致压缩到一个标准机柜里是什么场景,scaleX万卡超集群通过结合超高密度刀片和浸没相变液冷技术,实现了这一奇迹。
这不仅将单机柜算力密度提升了惊人的20倍,更将能耗比(PUE)优化至1.04的极致水平。这意味着,在为AI提供澎湃动力的同时,让绿色、低碳成为高性能的标配!
第二,是“数据高铁”,自主研发的原生RDMA高速网络。
在一万张加速卡协同工作时,最大的瓶颈往往不是计算本身,而是卡片之间“聊天”的速度。scaleX万卡超集群搭载了曙光自研的scaleFabric网络,它基于国内首款400G类InfiniBand的原生RDMA网卡与交换芯片,实现了400Gb/s的超高带宽和低于1微秒的端到端延迟。
第三,是“默契配合”下,存、算、传紧耦合的深度优化。这是因为,光有强健的“心脏”和“神经”还不够,如何高效地为心脏输送“血液”,也就是数据,同样关键。
scaleX万卡超集群通过从芯片级、系统级到应用级的三级数据传输协同优化,让高通量推理时的响应速度和结果精准度大幅提升,可将AI加速卡的资源利用率提高55%。
从scaleX万卡超集群的实践可以看出,国产超大规模智算集群通过高密度集成、超高速互联、深度协同优化等系统性创新,将极致性能、超高能效、超大规模和稳定可靠熔于一炉,构建了大国基建的坚实地基。
scaleX万卡超集群之所以能成为国家超算互联网的“动力心脏”,除了极致的性能,更在于它选择了一条关键道路:全面践行AI计算开放架构。
过去,AI算力领域存在着坚实的“生态墙”。不同的AI芯片、不同的计算框架、不同的软件栈,往往互不兼容,形成一个个孤立的“技术烟囱”。
对于开发者而言,每换一种硬件,就可能意味着大量的代码重写和适配工作,门槛高、成本大。对于国家构建统一算力网络而言,这更是致命的,它意味着资源无法有效汇聚和灵活调度。
scaleX所践行的开放架构,不是一个锁定单一厂商技术的“黑盒子”,而是一个支持多品牌国产AI加速卡混合部署的开放平台,无论是基于何种指令集,只要符合接口标准,都能在这个系统中协同工作。
在行业看来,这种兼容异构算力的能力,对于国家超算互联网核心节点而言,具有三大核心价值:
第一,是实现了战略自主与供应链安全。国家在建设关键算力基础设施时,拥有了技术路线的选择主动权与灵活性,不再受制于单一供应商,能够兼容并蓄,保障算力供应链的韧性与安全。
第二,是奠定了“算力一体化”的资源基座。
开放架构是实现“异构算力池化”的前提,核心节点凭借scaleX万卡超集群的开放特性,能够将不同来源、不同技术路径的国产AI算力整合进一个统一的、超大规模的资源池中,最大可对外提供超3万张国产AI加速卡算力,从而为上层实现跨地域、跨架构的算力资源智能调度与协同计算,提供了坚实的物理基础。
第三,是极大降低了生态接入与资源调度门槛。
对于国家超算互联网而言,开放架构意味着无需为每一类硬件定制开发复杂的调度与管理模块。scaleX万卡超集群通过智能调度引擎、数据亲和性算法及多元融合策略,实现了对异构算力资源的统一纳管与高效调度,能支持每秒万级并发作业处理,确保了庞大算力资源的高利用率。
基于开放架构带来的融合优势,核心节点可以迅速聚合产业力量,成为验证“全国一体化算力网络”运营模式的创新样板。
scaleX万卡超集群已与超过400个主流大模型、世界模型等完成适配与优化,覆盖了全球99%的非闭源大模型。
这验证了,其基于开放架构构建的超大规模智算基础设施,能够无缝承接并高效运行最主流的AI生态,具备了服务AI研发应用、前沿科技攻关和数字经济发展的成熟能力。
在行业看来,这种模式彻底改变了游戏规则。它让创新不再被算力门槛扼杀,让最前沿的智算能力,能够像公共服务一样,惠及每一个有需要的创新主体。
全球领先的万卡超集群,遇上开放的生态架构,最终凝结为两个对千行百业而言最实在的价值:开发效率翻倍、算力使用成本大幅降低。
在国家“东数西算”工程全面深化、“人工智能+”行动加速推进的当下,这样一个高性能、高能效、高可用、且开放的“算力心脏”,为统筹全国算力资源、促进算力普惠和前沿科技攻关,提供了不可或缺的核心动力。
据了解,实际应用中,scaleX万卡超集群可为多场景深度赋能:针对超大规模模型训练,支持万亿参数模型的整机训练与容错恢复;面向高通量推理场景,已服务于多家头部互联网用户的核心智能化业务,并通过联合深度优化持续提升推理效能;在AI4S领域,支撑国内某材料研发大模型登顶国际权威榜单,助力国内顶级科研团队将蛋白质研究效率提升3-6个数量级等;同时搭配OneScience科学大模型一站式开发平台,大幅降低多学科交叉研究的创新门槛。
更重要的是,核心节点只是一个起点,scaleX万卡超集群可支持向十万卡、百万卡规模的灵活扩展,为迎接万亿参数乃至更大规模的大模型,铺好了坚实的地基。
期待未来,澎湃的国产AI算力将可以像电力一样被智能调度、输送到全国任何一个有需求的角落,真正成为驱动千行百业智能化转型的基础能源,让我们拭目以待!