这台6万卡集群的真正价值回答了一个核心问题:科学智能的算力底座,到底该长成什么样。
作者丨谢 俞
媒体丨算力网
4月14日,郑州国家超算互联网核心节点,中科曙光在这里投用了一个庞然大物——国内规模最大的6万卡AI4S计算集群。这个数字意味着什么?如果将这6万张加速卡同时调动起来,它能提供全球顶级的超智融合算力,其并发作业调度效率甚至能超过每秒万次。
过去两年,AI大模型的算力竞赛始终围绕通用语言、多模态场景展开,大众对 “万卡集群” 的认知,大多停留在大模型训练的数字游戏里。
但AI4S的算力需求,从底层逻辑上就和通用AI截然不同,它不是只要并行算力够大就行,而是要同时满足高精度科学计算与大模型训练推理的双重诉求,要打通机理模拟与数据驱动的壁垒,还要适配材料、生命科学、能源、地质等垂直科研场景的特殊规则。
而郑州这台6万卡集群的真正价值,不在于“6 万卡”这个数字,在于它第一次用规模化、全栈自研**、超智融合的方案回答了一个核心问题:科学智能的算力底座,到底该长成什么样。
在AI4S成为国家战略之前,科研领域的算力一直处于“割裂状态”
传统科学研究依赖超算,核心做机理驱动的数值模拟——无论是分子动力学还是有限元分析、气候模拟,都需要FP64双精度高精度算力,追求计算的严谨性和可复现性,容不得半点误差。这类计算是科研的“根”,但痛点也很明显:算力调度僵化、对 AI 模型适配性差、无法处理海量科研数据的挖掘与预测。
而近几年爆发的AI大模型,依托的是智算,以半精度/低精度并行算力为主,擅长数据拟合、模式识别、生成式任务,能快速处理蛋白质结构预测、材料逆向设计、天文信号筛选等问题,但短板是缺乏物理约束、可解释性差,纯数据驱动的结果很难直接用于严谨的科学研究。
AI4S的核心是把“机理模拟”和“AI 驱动”捏合在一起,形成数据+机理双驱动的科研范式。
这就要求算力底座必须同时具备两个能力:既能跑超算的高精度科学计算,也能撑智算的大模型训练;既能处理微观量子级的模拟,也能支撑宏观工程级的仿真;既要稳定支撑数天甚至数月的长周期计算,也要满足高通量实验的快速推理需求。
在此之前,国内几乎没有能同时满足这些要求的规模化集群。高校、科研院所要么用传统超算改造成AI场景,效率大打折扣;要么用通用智算集群跑科学计算,精度不够、生态不兼容,最终只能做浅层次的辅助,无法触及科研核心环节。
中科曙光6万卡 AI4S 集群的破题点,正是超智融合。
这套集群不是把超算和智算简单拼接,而是从芯片、网络、存储到调度系统,做了全链路的融合设计:它能提供2.4 EFLOPS双精度超算算力,满足DFT、分子动力学等经典科学计算需求;同时具备 30 EFLOPS 半精度AI算力,支撑万亿参数科学大模型训练;全精度覆盖 FP64/32/16/8,解决了单一架构无法兼顾精度与效率的行业痛点。
对科研团队而言,这意味着不用再在超算中心和智算中心之间来回切换,不用为了适配不同算力重构模型,不用在精度和速度之间做妥协。北京昌平实验室的蛋白质折叠模拟、中国农业大学的生物育种计算、中国石化的油藏模拟,都能在同一套算力体系里高效运行——这才是 AI4S 真正需要的“好用的算力”,而不是单纯追求数字好看的“大算力”。
更关键的是,这台集群接入了国家超算互联网核心节点,意味着它不是孤立的算力资源,而是全国AI4S 算力调度网络的核心枢纽。高校、企业、科研机构可以通过网络按需调用算力,打破地域、资源壁垒,让中小团队也能用上顶级科学智能算力。这才是算力普惠的核心,也是 AI4S 规模化落地的基础。
很多人看到“6 万卡”,第一反应是不是“攒了一堆芯片”。但万卡级 AI4S 集群的难度,从来不在 “买芯片”,而在把芯片、网络、存储、散热、软件捏成一个稳定高效的系统,这背后是三十年的技术积累。
中科曙光在先进计算领域深耕三十余年,这次6 万卡集群落地,是其技术能力的集中兑现,核心体现在四个维度:
第一:全栈自研,打破海外技术垄断。
这套集群的核心竞争力,是“算、存、网、电、冷、管、软” 七位一体的自研能力,没有依赖海外核心组件。
网络层面,自研scaleFabric原生RDMA高速网络,是国内首款400G类InfiniBand**方案,交换延时仅260ns,网卡延迟0.93μs,支持超10万卡无损组网,直接打破了海外厂商在高端高速网络市场的长期垄断。
算力层面,6 款自研核心芯片,覆盖全精度算力需求,适配科学计算的特殊算子。
散热层面,浸没相变液冷技术,PUE**低至1.04,单机柜算力密度提升20倍,保障长周期训练零中断——这对动辄数月的科学计算至关重要。
调度层面,自研智能调度引擎,可管理万级节点、支持每秒万级作业调度,算力利用率提升30% 以上。
第二,超智融合,制定行业标准。
超算与智算的融合,不是技术拼接,而是体系重构。曙光是国内最早推进超智融合的厂商,不仅推出了Nebula800超智融合算力平台,还参与牵头编写《超智融合集群能力要求》行业标准,建立了从架构设计到评估方法的完整体系。
这套标准的价值,在于解决了行业“无章可循”的问题。曙光的标准,让超智融合有了明确的技术路径,也让国产AI4S算力从单点突破走向体系化发展。
第三,超大规模工程化,落地能力验证。
算力集群的技术再先进,落不了地都是空谈。万卡级集群的工程交付,是对厂商供应链、集成能力、运维能力的终极考验。
从2025年12月发布方案,到2026年2月3万卡集群上线,再到4月6万卡集群落地,曙光只用了不到三个月,就完成了从万卡级到6万卡级的跨越。目前,这一集群是国内最大的单体国产AI算力资源池,已吸引超3000位用户测试,支撑多家头部 AI 大模型厂商的大规模训练,工程化能力得到实打实的验证。
第四,开放架构,降低生态壁垒。
AI4S的落地,离不开生态适配。曙光联合20余家产业链伙伴推出AI计算开放架构,全面兼容主流生态,支持多品牌国产加速卡混合部署,适配400+主流科学大模型,覆盖生物、材料、气象、石油等多场景。
这种开放姿态,避免了技术栈锁定,降低了科研团队的迁移成本。无论是AlphaFold**这类国际主流模型,还是伏羲气象、女娲生命等国产科学大模型,都能快速适配部署,让算力真正服务于科研创新,而不是成为厂商的技术壁垒。
这些能力不是凭空而来,而是曙光在国家超算中心、科研基础设施建设中,一点点积累的经验。从“神威・太湖之光**” 到国家超算互联网核心节点,曙光一直是国产先进计算的“国家队”,这次6万卡AI4S 集群,只是把三十年的积淀,用在了最关键的战略赛道上。
郑州6 万卡集群的落地,对中科曙光而言,还有一层更深远的意义:完成从 “卖硬件”到 “算力运营商”的商业模式进阶。
过去,算力厂商的核心收入来自服务器、超算集群的硬件销售,但AI应用的发展,彻底改变了算力的商业模式——科研机构、企业不需要买集群,只需要按需购买算力服务,就像用水用电一样方便。
而曙光也抓住了这个趋势。
目前,其scaleX 万卡集群已投入国家超算互联网试运营,这种“算力即服务” 的模式,让厂商从一次性的硬件销售,转向长期、稳定的服务收入,盈利结构更健康,也更贴合AI4S的长期发展需求。
这种转型,也恰好契合了国家“人工智能 +”战略的核心方向。“十五五”规划明确提出,以人工智能引领科研范式变革,AI4S 被列为“人工智能+科学技术” 的核心落地方向,而算力基础设施是重中之重。2026 年《政府工作报告》也将“实施超大规模智算集群”列为重点任务,算力不再是企业的私事,而是国家战略资源。
中科曙光作为国家队,深度绑定国家级智算中心、国家超算互联网,承建了全国80% 的国家级智算中心。
与此同时,从行业层面看AI4S的市场空间正在快速打开。据 QYResearch 数据,2025年全球 AI4S 市场规模约 45.38 亿美元,预计 2032 年将达 262.3 亿美元,年复合增长率 28.9%。在医药、材料、能源、半导体六大下游行业,AI4S 可覆盖的市场规模接近 11 万亿美元,研发渗透率仅为个位数,增长天花板极高。
而算力作为AI4S 的底座,是整个赛道的核心入口。谁掌握了科学智能的算力底座,谁就掌握了主动权。中科曙光的6万卡AI4S计算集群,不仅是一套算力设备,更是国产AI4S生态的核心枢纽——上游连接芯片、存储、网络等硬件厂商,中游支撑科学大模型、科研智能体研发,下游赋能医药、材料、能源等产业创新,形成完整的产业闭环。
从经验归纳、理论建模、计算模拟到数据密集型科学,再到如今的AI 驱动科学研究,每一次范式变革,都离不开算力基础设施的支撑。
当6万张加速卡在郑州同时亮起,我们看到的不仅仅是技术的进步,更是一个国家在基础科研领域试图掌握主动权的决心。这场静默的革命,才刚刚开始。