蓝耘参与ICCPA 2025年中总结交流会,分享万卡智算集群业务实践

94 阅读4分钟

6月27日,由中国信息通信研究院主办的万卡智算集群服务推进方阵(ICCPA)2025年中总结交流会在北京成功召开。会议汇聚业内企事业、科研机构及专家代表,围绕智算关键技术、产品建设,应用实践与未来趋势展开深度研讨,共话智算集群服务产业发展。蓝耘科技受邀出席本次会议,凭借在智算基础设施建设与技术服务能力方面的卓越表现,正式获颁“万卡智算集群服务推进方阵(ICCPA)成员单位”证书。

图片

作为成员单位代表,蓝耘科技与阿里云分别进行了技术主题分享,得到了与会领导及来宾的一致肯定。蓝耘科技CTO安江华以《蓝耘科技万卡智算集群业务实践》为主题,从万卡智算集群的规划与实践及自主研发的智算云平台“蓝耘元生代”等核心维度展开阐述,系统分享了蓝耘在万卡智算集群业务方面的实践成果。

图片安江华表示,在万卡智算集群规划部署中,需综合考虑多个关键因素以确保其高效、稳定运行。首先,从落位布局综合考量机房面积、承重等因素,合理规划设备物理位置;机架布局需合理分配设备、预留空间便于维护;在电源与散热方面,则根据设备功率规划电源分配及散热方案,如冷热通道隔离,保障设备运行环境;网络架构规划上按需选择RoCE或InfiniBand组网,兼顾性能、可管理性与可扩展性。图片

随着万卡智算集群算力密度的持续攀升,其面临的能耗挑战愈发严峻。液冷技术作为先进的散热方案,已成为智算集群能效优化的重要一环。安江华强调,蓝耘智算中心液冷改造实践成效显著,通过液冷技术的有效应用,成功克服了万卡智算集群散热挑战,使GPU运行温度降低10%,避免因过热导致的降频现象,从而减少算力损失;同时将单台GPU服务器功耗降低1kW,上架密度实现一倍以上提升,并大幅降低环境噪音,显著提高了万卡智算集群的运算效能与能源利用效率。

图片

图为液冷改造后GPU服务器的功耗与温度表现

此外,蓝耘万卡智算集群业务提供覆盖全生命周期的综合服务。设计规划阶段,蓝耘整合系统、网络、布线与运维专业团队,提供机房布局、架构规划及设计输出服务。部署交付环节,涵盖系统镜像封装部署、BOM校验、固件管理、硬件调优,执行严格的单机(硬件/固件/网络/性能)及多机(All Reduce/All To All/All Gather)压力测试;并提供定制化环境搭建,预装主流AI开发工具与深度学习框架,支持裸金属、容器、AI协作开发平台及MaaS等多样化智算云服务。运维保障方面,蓝耘依托专业运维团队与智能运营平台,提供7x24小时驻场全方位代运营与实时故障定位排除,确保集群高效稳定运行。

万卡智算集群服务推进方阵(ICCPA)自成立以来,已取得一系列阶段性成果。其立足智算集群“建设咨询、部署交付、技术赋能、应用落地”四大环节,构建起全面多层次的服务生态体系,加速人工智能技术在多场景的深度应用与融合创新,推动产业链上下游企业紧密协作,共同探索智能计算新技术、新应用、新模式,助力产业稳健发展。

未来,蓝耘将持续筑牢智算技术与服务融合的产业生态底层根基,加强与各成员单位合作交流,携手探索智算集群服务在各行业的应用落地,为万卡智算集群的蓬勃发展注入澎湃动力。
推荐阅读

图片图片图片图片图片

**
**

蓝耘科技集团股份有限公司成立于2004年,是国家高新技术企业、国家级专精特新“小巨人”企业,专注于构建面向人工智能时代的算力基础设施与全栈服务能力。公司以自主研发的 “元生代MetaGen” 智能算力操作系统(AIC-OS)为核心技术生态,深度融合多元异构算力底座与算力调度平台、AI协作开发平台、MaaS服务平台、合成数据生成平台等全栈自研产品矩阵,打造 “算力工厂 + 数据工厂 + 模型工厂” 三位一体的赋能体系,为千行百业提供从底层算力支撑到AI应用落地的全栈式赋能。

元生代MetaGen智能算力操作系统(AIC-OS)是蓝耘技术生态的底层架构与核心引擎,通过整合高性能GPU算力调度、容器化资源管理、混合云架构协同等能力,构建智能化、弹性化的算力操作系统。其核心价值在于打通算力、数据、模型AI三大核心生产要素的协同闭环,实现从基础设施到行业场景的全链路技术赋能。

图片