CPU绝不是AI算力集群里的“勤杂工”,恰恰相反,在越来越复杂的AI业务和算法场景中,CPU的性能和能效早已成为影响集群效率的关键因素。all-to-all集合通讯、百万字上下文关联、亿级数据预处理等环节已经在当下的AI业务中司空见惯,而它们性能和效率都与CPU直接相关。
换言之,如果CPU性能不足,那么训推业务的整体耗时就会增加,集群效率降低;如果CPU能效不好,那么海量CPU的长时间高负载运行也会导致集群能耗快速增加,推高业务成本。显然,二者都是业务无法承受之重。
因此,对于面向新型负载和未来业务的AI算力集群而言,CPU的性能和能效水平同样重要,值得用户投入更多关注和资源。
0 1、用先进工艺,给处理器“去火”
在处理器领域,更先进制程就代表更好的能效和更高的性能。
通过使用更先进的工艺,处理器厂商可以缩小晶体管尺寸、降低晶体管驱动电压、减小栅极电容量,而这些关键指标的进化均能带来处理器功耗的整体缩减。换句话说,谁能用上更先进的工艺,谁就更有机会在能效和性能的比拼中占据先天优势。
以目前主流的AMD第五代EPYC处理器为例,其核心部分使用了Zen 5/5c架构,分别基于4nm和3nm工艺制造,可在相同的核心数、三缓及TDP下提供更高的基础频率和全核Boost频率。而对于AI业务中常由CPU负责的网络通讯和数据预处理等环节来说,更高的频率往往会带来更直观的性能提升,让AI集群获得更高的每瓦特性能。
0 2、Zen架构,用效率带来性能和能效提升
工艺是金刚钻,但要做出漂亮的瓷器活,还需要匠心的精妙设计。
同样以当前EPYC处理器使用的Zen 5架构为例,AMD通过三大层面的进化实现了更好的AI负载性能:
更高的内存带宽: Zen 5架构支持DDR 5规格内存,并且将内存频率从原先的4800 MT/s提升至6400 MT/s。而这一升级也使得第五代EPYC系列处理器在满配下的内存带宽从原先的460GB/s直接提升三分之一,达到614GB/ s。由此,处理器便可在all-reduce、checkpoint存储与加载、embedding表处理等严重依赖内存带宽的AI业务环节中表现出更好性能,从而减少算力的等待时间,提升集群的整体能效和性能。
AVX-512 指令集: 顾名思义,AVX-512指令集允许处理器一次性加载64个Int8或32个FP16或16个FP32数据……相对于过往的AVX-256处理模式,处理器的浮点数据处理性能直接翻倍。而这对于各类主要依赖CPU进行的在线推理、RAG、内容推荐等业务来说,相同功耗下性能翻倍诱惑显然无法拒绝。
改进的缓存设计: 在大模型推理应用中,系统通常会将经过计算的Key和Value保存在处理器的高速缓存中,以此来实现节省计算资源、提升集群效率并降低延迟的效果。因此,处理器的L2、L3缓存越大,能存储的KV就越多,推理集群的整体性能就越好。目前,使用Zen 5架构的AMD EPYC处理器最高可提供 384MB三级缓存,而Zen 5c架构更可提供最高512MB三级缓存。同时,在Zen 5/5c架构中,AMD还将一二级缓存的相关度从过往的8路分别升级为12路和16路,使一二级缓存的读写带宽提升了50%和100% 。
内存带宽升级、AVX-512指令集的加入以及改进的缓存设计都意味着,AMD EPYC系列处理器能够在AI业务负载中发挥更多综合性能优势,让AI集群能够更快完成各个环节的计算任务,从而降低单位计算量的能耗,实现性能和能效的双丰收。
0 3、Chiplet设计,新时代的平衡术
“模块化”是先进制造的最核心特征之一;而Chiplet设计便是这一思路在芯片领域内的终极形态。
作为行业中最具代表性、也是在主流产品中全面应用Chiplet设计思路的大型厂商之一,通过在处理器基板上将多枚晶片互联,AMD不仅能实现处理器的模块化设计,以提升产品迭代速度并降低设计制造难度,更能通过缩小单颗晶片体积、使用不同工艺等方法来平衡性能与成本。由此,AMD便能将极致的性能和密度、更大的缓存及更高的性价比同时交付给用户。
以使用Zen 5架构的AMD EPYC 9965处理器为例,其通过Chiplet设计集成了12个CCD晶片,能为用户提供192个物理核心和384MB三级缓存的极致密度。由此,用户便可在服务器数量缩减的情况下实现相同的处理能力。而硬件数量的大幅缩减也将为用户节约巨量的电力、软件授权和机架空间成本。同时,凭借处理器架构的多维升级,AMD EPYC 9965处理器在AI推理任务中的性能也能达到上代产品的2倍。
0 4、搭建先进AI集群,先选对CPU
如今的AI业务已经变得越来越复杂多样,是对AI算力集群的综合考研;CPU、GPU、网络、存储……任何一方面的短板都可能带来效率和性能的损失,继而拖累计算集群在能效、性能、延迟等方面的表现。
而作为整个计算平台的核心,CPU不仅要提供更多、更高标准的PCI-E通道,更要负责各个业务环节中的海量数据处理器任务。一步慢、步步慢,而一步省、则步步省!在只争朝夕的AI赛道上,选对CPU,才是构建业务领先的第一步。