能效还是性能？新一代AI算力集群：我全都要！CPU绝不是AI算力集群里的“勤杂工”，恰恰相反，在越来越复杂的AI业务和算

CPU绝不是AI算力集群里的“勤杂工”，恰恰相反，在越来越复杂的AI业务和算法场景中，CPU的性能和能效早已成为影响集群效率的关键因素。all-to-all集合通讯、百万字上下文关联、亿级数据预处理等环节已经在当下的AI业务中司空见惯，而它们性能和效率都与CPU直接相关。

换言之，如果CPU性能不足，那么训推业务的整体耗时就会增加，集群效率降低；如果CPU能效不好，那么海量CPU的长时间高负载运行也会导致集群能耗快速增加，推高业务成本。显然，二者都是业务无法承受之重。

因此，对于面向新型负载和未来业务的AI算力集群而言，CPU的性能和能效水平同样重要，值得用户投入更多关注和资源。

0 1、用先进工艺，给处理器“去火”

在处理器领域，更先进制程就代表更好的能效和更高的性能。

通过使用更先进的工艺，处理器厂商可以缩小晶体管尺寸、降低晶体管驱动电压、减小栅极电容量，而这些关键指标的进化均能带来处理器功耗的整体缩减。换句话说，谁能用上更先进的工艺，谁就更有机会在能效和性能的比拼中占据先天优势。

以目前主流的AMD第五代EPYC处理器为例，其核心部分使用了Zen 5/5c架构，分别基于4nm和3nm工艺制造，可在相同的核心数、三缓及TDP下提供更高的基础频率和全核Boost频率。而对于AI业务中常由CPU负责的网络通讯和数据预处理等环节来说，更高的频率往往会带来更直观的性能提升，让AI集群获得更高的每瓦特性能。

0 2、Zen架构，用效率带来性能和能效提升

工艺是金刚钻，但要做出漂亮的瓷器活，还需要匠心的精妙设计。

同样以当前EPYC处理器使用的Zen 5架构为例，AMD通过三大层面的进化实现了更好的AI负载性能：

更高的内存带宽： Zen 5架构支持DDR 5规格内存，并且将内存频率从原先的4800 MT/s提升至6400 MT/s。而这一升级也使得第五代EPYC系列处理器在满配下的内存带宽从原先的460GB/s直接提升三分之一，达到614GB/ s。由此，处理器便可在all-reduce、checkpoint存储与加载、embedding表处理等严重依赖内存带宽的AI业务环节中表现出更好性能，从而减少算力的等待时间，提升集群的整体能效和性能。

AVX-512 指令集： 顾名思义，AVX-512指令集允许处理器一次性加载64个Int8或32个FP16或16个FP32数据……相对于过往的AVX-256处理模式，处理器的浮点数据处理性能直接翻倍。而这对于各类主要依赖CPU进行的在线推理、RAG、内容推荐等业务来说，相同功耗下性能翻倍诱惑显然无法拒绝。

改进的缓存设计： 在大模型推理应用中，系统通常会将经过计算的Key和Value保存在处理器的高速缓存中，以此来实现节省计算资源、提升集群效率并降低延迟的效果。因此，处理器的L2、L3缓存越大，能存储的KV就越多，推理集群的整体性能就越好。目前，使用Zen 5架构的AMD EPYC处理器最高可提供 384MB三级缓存，而Zen 5c架构更可提供最高512MB三级缓存。同时，在Zen 5/5c架构中，AMD还将一二级缓存的相关度从过往的8路分别升级为12路和16路，使一二级缓存的读写带宽提升了50%和100% 。

内存带宽升级、AVX-512指令集的加入以及改进的缓存设计都意味着，AMD EPYC系列处理器能够在AI业务负载中发挥更多综合性能优势，让AI集群能够更快完成各个环节的计算任务，从而降低单位计算量的能耗，实现性能和能效的双丰收。

0 3、Chiplet设计，新时代的平衡术

“模块化”是先进制造的最核心特征之一；而Chiplet设计便是这一思路在芯片领域内的终极形态。

作为行业中最具代表性、也是在主流产品中全面应用Chiplet设计思路的大型厂商之一，通过在处理器基板上将多枚晶片互联，AMD不仅能实现处理器的模块化设计，以提升产品迭代速度并降低设计制造难度，更能通过缩小单颗晶片体积、使用不同工艺等方法来平衡性能与成本。由此，AMD便能将极致的性能和密度、更大的缓存及更高的性价比同时交付给用户。

以使用Zen 5架构的AMD EPYC 9965处理器为例，其通过Chiplet设计集成了12个CCD晶片，能为用户提供192个物理核心和384MB三级缓存的极致密度。由此，用户便可在服务器数量缩减的情况下实现相同的处理能力。而硬件数量的大幅缩减也将为用户节约巨量的电力、软件授权和机架空间成本。同时，凭借处理器架构的多维升级，AMD EPYC 9965处理器在AI推理任务中的性能也能达到上代产品的2倍。

0 4、搭建先进AI集群，先选对CPU

如今的AI业务已经变得越来越复杂多样，是对AI算力集群的综合考研；CPU、GPU、网络、存储……任何一方面的短板都可能带来效率和性能的损失，继而拖累计算集群在能效、性能、延迟等方面的表现。

而作为整个计算平台的核心，CPU不仅要提供更多、更高标准的PCI-E通道，更要负责各个业务环节中的海量数据处理器任务。一步慢、步步慢，而一步省、则步步省！在只争朝夕的AI赛道上，选对CPU，才是构建业务领先的第一步。