自2023年推出以来,该款CPU在数据中心得到迅速采用,为各种工作负载的性能效率设立了新标杆。它将Arm Neoverse核心与可扩展一致性结构、高带宽LPDDR5X内存以及高速互连技术集成在一起,提供了突破性的带宽、低延迟可扩展性和能源效率。
本文将探讨其单芯片统一内存访问架构的优势,深入分析每核心内存带宽、可扩展性和效率,并将其设计方法与传统的基于小芯片的x86 CPU进行对比。
单芯片统一内存访问设计
该CPU采用了一致性网状互连,将所有72个Arm Neoverse核心统一到一个高性能域中。每个核心都能平等地访问内存,消除了边界,从而简化了软件开发、应用程序扩展,并确保了跨线程和工作负载的一致性能。这种统一的网状结构为所有核心提供了相似的内存访问延迟,消除了跨数据传输及其相关的性能损失。其统一缓存和内存子系统提供了最佳的核心间延迟和更高的缓存命中率,没有多芯片设计固有的片间跳转。
在最终用户更普遍使用小型虚拟机的云环境中,这种统一架构使每个虚拟机都能访问完整的内存子系统——这是基于小芯片的设计所不具备的优势。传统的多芯片架构通常需要精细的核心绑定来保持性能一致性,并且在利用率不足时,分发工作负载会因激活多个小芯片而产生额外的功耗开销。
下图展示了作为骨干的可扩展一致性结构,它使72个Arm Neoverse核心、114 MB统一L3缓存、480 GB LPDDR5X内存以及900 GB/s的高速互连,在一个单芯片上作为一个一致的系统协同工作。图示展示了数据在网状网格上的流动,没有通常在基于小芯片的设计中观察到的瓶颈。
随核心数量实现最佳内存带宽扩展
该CPU提供了核心数量与内存带宽的最佳平衡,通过一个庞大的统一网状结构在系统内移动数据。许多数据分析、提取、转换、加载和高性能计算工作负载在核心、缓存和内存之间移动大量数据,需要内存带宽与总核心数之间达到良好的平衡比例。
如图所示,STREAM基准测试结果突显了其可实现的带宽优势。该基准测试专门用于使CPU缓存过载,并迫使系统直接从内存执行大规模、持续的数据移动。
该CPU在总可达到的内存带宽上超越了某竞争对手,但其真正的优势在于带宽效率。当所有核心在全系统压力下都处于活动状态时,它提供了更高的每核心带宽,这是下一代数据驱动计算的关键优势。与竞争对手的系统级芯片相比,它提供了高达1.8倍的每核心内存带宽,使每个核心都能通过网状结构和内存子系统同时高效处理海量数据流。
面向大数据工作负载
其统一结构和更高的每核心内存带宽的优势在实际数据分析工作负载中显而易见。例如,作为图算法平台基准测试套件一部分的PageRank图算法,是评估系统在图分析和大数据中性能的关键工作负载。它旨在迭代计算大规模图中每个节点的重要性分数,模拟现实世界的流程,如网站排名或分析社交网络。PageRank基准测试既强调了核心间通信,也强调了有效处理大型随机、分散内存访问模式的能力。
图3显示了PageRank算法在该CPU和某竞争对手上的性能,均在核心0到15上顺序运行。关键的PageRank指标——每秒遍历边数,在该CPU上随核心数量一致地扩展。这得益于其统一的可扩展一致性结构,该结构实现了跨核心、缓存和内存子系统的无缝数据移动。
相比之下,基于小芯片的x86设计由于其分散的网状结构和片间延迟,扩展不均且有限。虽然在基于小芯片的架构上进行细粒度的核心绑定可以带来适度的增益,但这对于数据分析工作负载通常适得其反,并且在现实部署中增加了工程开销。在云计算中使用小型虚拟机时,这个问题进一步加剧,因为分发核心可能并非可选方案。
在数据分析和高性能计算工作负载上超越x86 CPU
该CPU是首款采用高性能LPDDR5X内存和全一致性CPU-GPU互连(运行速度为900 GB/s)的服务器CPU。这为下一代AI工厂和大数据工作负载提供了可能。
图4显示了双路系统中该CPU与某竞争对手在每瓦性能上的比较。该CPU在关键的数据分析(包括联机分析处理、图和提取转换加载)以及涵盖计算流体力学、天气和分子动力学的高性能计算工作负载上,提供了高达3倍的每瓦性能,从而最大化数据中心吞吐量并降低总体拥有成本。
在低功耗下实现高性能
该CPU节能架构的一个关键优势是,即使在较低的功率限制下运行以降低总机架能耗和冷却需求时,仍能保持高性能。随着数据中心朝着更高的计算密度和更紧张的能源预算发展,效率变得越来越重要。图5显示了该CPU在几个功率限制级别下,相对于其250W基线的性能表现。该CPU在200W时保持超过90%的性能,在150W时保持约80%的性能,从而以最小的性能折衷实现显著的节能。
这种能力使运营商能够在效率上进行调优,而无需牺牲有意义的计算性能,从而在功率受限的环境中最大化机架级密度并降低冷却成本。
该CPU通过LPDDR5X内存、高能效设计以及在单片系统级芯片中集成高性能且节能的Arm Neoverse核心(最小化片外通信)的组合实现了这种平衡。这些技术减少了数据移动开销,并提供了出色的每瓦性能。其结果是,一款CPU能够在更低功耗下运行得更快。即使在功率受限的情况下,它也能保持性能余量,这使其非常适合现代、功率受限的环境,涵盖超大规模部署、高性能边缘、存储、内容分发网络、高性能计算以及其他功率受限的用例。
为下一代数据工厂提供动力
该CPU为该机构的CPU路线图奠定了基础,在单芯片统一内存访问设计中提供了领先的性能、功率效率、一致的核心扩展、优化的网状结构和内存带宽,非常适合各种服务器部署。展望未来,对于即将推出的下一代服务器CPU——Vera感到兴奋,它将配备88个自定义多线程Arm核心、更大的网状结构、1.2TB/s的内存带宽和1.8 TB/s的高速互连,以驱动下一代数据计算。
了解更多关于该机构CPU性能、效率、优化和软件生态系统的信息。