曝GPT-6训练需部署10万台H100 GPU,电力保障是最大难题

173 阅读2分钟

近日微软工程师透露,微软正在为GPT-6的训练部署10万台H100 GPU,在部署过程中遇到了GPU之间扩区域配置无线宽带的问题。而在同一州部署10万台H100,电网会因无法承担巨大负荷而崩溃。

OpenAI CEO奥特曼也曾表示,“未来AI技术发展,取决于能源的保障,需要更多的光伏和储能支持AI算力。”

训练一个大模型需要数周甚至几个月的时间,在此期间,GPU服务器日以夜继不间断运行,需要消耗大量电力。据外媒统计,ChatGPT每天要消耗超过50万千瓦时的电力,以响应用户的约2亿个请求。

AI算力的快速扩张直接带动了智算算力中心和AI集群的规模增长,而这些设备的运行需要消耗大量的电力。随着AI模型的复杂度不断提高,需要的计算资源越来越多,训练、推理所需要的电力也随之增长,呈现出明显的线性增长趋势。稳定、高效的电力供应是算力设施正常运行的重要保障。英智未来算力中心提供数个变电站及UPS配置,提高电力供应的稳定性和可靠性,满足高容量、高冗余的电力保障。

英智未来算力中心通过综合监控系统实施7*24小时全年无休的设备监控,发现告警,并行处理,及时解决问题。对系统运行进行实时检查。对监控或维护中发现的问题及时处理,消除隐患,保障服务器的稳定运行。

为了满足企业对智算算力的需求,英智未来积极布局算力中心建设,调度全球智算算力资源,打造高效、智能、安全的算力中心,提供从GPU服务器,到计算、存储、网络等一体化的AI算力解决方案,具备AI基础设备、智能算力调度平台、AI数据资源等服务能力,为AI模型应用开发提供稳定安全的资源保障。

AI大模型的训练、AI应用项目的开发都需要高质量GPU服务器支撑,但目前全球先进的GPU一芯难求,英智未来baystone平台目前已完成数千P算力集群,可满足企业不同业务场景的不同规格GPU服务器需求,为企业提高计算效率及更好的性能服务。