在上个月,Arm公布了最新的基础设施Neoverse V1和Neoverse N2CPU IPs,该轮到客户端和移动端了。今年,Arm比往年有了很大的变化,我们看到了三个用于移动和客户端的新一代微架构。旗舰的Cortex-X2内核,以Cortex-A710形式出现的新的A78继任者,以及多年来第一次出现的全新的小内核Cortex-A510。这三个新的CPU形成了一个新的Armv9兼容设计的三重奏,旨在标志着一个更大的架构/ISA转变,这在业界是非常少见的。
除了新的CPU内核,我们还看到了新的L3和集群设计的DSU-110,而且Arm还通过新的高速缓存相干CI-700网状网络和NI-700片上网络IP对其互连IP进行了大的升级。
Cortex-X2、A710和A510是去年X1、A78和A55的后续产品。尤其是新的Cortex-X2和A710,它们是其前辈的直接微架构继承者。这些部件在迭代改进IPC和效率的同时,还以Armv9和新扩展(如SVE2)的形式纳入了全新的架构特性。
Cortex-A510是Arm的新小核心,是一个更大的微架构跳跃,因为它代表了Arm剑桥CPU设计团队的一个新的净板CPU设计。A510带来了较大的IPC改进,同时仍对电源效率持续关注,而且,保留了其特有的内序微架构。
一个Armv9 CPU家族--所有实际用途都是AArch64
新的CPU系列标志着Arm多年来最大的架构跳跃之一,因为该公司现在将所有三个新的CPU IPs都建立在Armv9.0的基础上。公司早在3月底就广泛地报道了新Arm架构的细节。新ISA的主要特点包括新加入了之前的可选/缺失的Armv8.2+功能,但是这些功能在移动和客户端设计中还没有得到保证(主要是由于老的A55内核),引入了新的SVE2 SIMD和矢量扩展。
还有一个期待已久的重大变化,在即将推出的Arm Cortex-A移动内核中,我们将看到32位AArch32执行模式的废弃。谷歌在2019年宣布Google Play商店将要求上传64 位应用,该公司将在今年夏天晚些时候停止向64位兼容设备提供32位应用。
虽然Arm宣称这一转变将在2023年发生,但对大多数全球用户来说,它已经在明年发生了。Cortex-X2旗舰核心和Cortex-A510小核心都是仅有AArch64的微架构,不再能够执行AArch32代码。
说到这里,敏锐的读者会注意到,三个CPU中有两个并不是很完全的转变,其原因是Cortex-A710实际上仍然支持AArch32。Arm表示,这样做的原因主要是为了满足中国移动市场的需求,中国市场缺乏全球Play Store市场的同质化生态系统能力,中国厂商及其国内应用市场需要多一点时间来促进向64位的转变。这意味着我们明年会出现一种奇怪的情况,即SoC上只有中间的内核能够执行32位的应用程序,这些应用程序被归入中间的A710内核,而错过了小A510内核的电源效率或X2内核的性能。
在大内核方面,新的Cortex-X2和Cortex-A710是Cortex-X1和Cortex-A78的继承者。这两种设计大多是由Arm的奥斯汀设计团队设计的,代表了这个微架构家族的第四代,该家族几年前从Cortex-A76开始。这些内核应该是这个微架构家族的最后一个,然后Arm才会把事情交给明年的新Sophia内核并进行全新的设计。
在设计理念方面,X2和A710大致保持了X1和A78所确定的总体目标。X系列继续专注于通过在Arm意愿内增加微架构结构,在合理范围内对功率做出妥协来推进性能。同时,A710继续专注于通过更智能的设计来提高性能和效率,并在很大程度上关注最大化IP的功率、性能和面积(PPA)平衡。
Arm公司还提出一点:为持续电压操作优化关键路径和物理设计--这更像是该公司在下一代 "中间 "内核中努力实现的目标,而不是专门反映在Cortex-A710中的东西。
今年,我们也终于看到了一个新的小核心。早在2017年就报道过Cortex-A55,从那时起就没有看到Arm的小核心有任何更新,以至于它被视为过去几代移动SoC的大弱点。
新的Cortex-A510都是由Arm公司剑桥设计团队设计,利用了该公司较大内核所采用的许多技术,在一个新的有序的小微架构中实施。我们仍然在讨论内序核心,而且Arm仍然认为这是提取移动设备最佳效率和 "使用日 "的最佳选择。
尽管这是一个内单核,但Arm做了一个比较,新的设计与2017年的旗舰核极为相似--即Cortex-A73,实现了非常相似的IPC和频率能力,但同时消耗的功率要小得多。
新设计还有一个非常有趣的共享复杂方法,与第二个核心共享L2和FP/SIMD管线,Arm称这种设计方法为 "合并核心",这无疑会让读者想起10年前AMD在推土机核心中的CMT方法,尽管这些方法存在很明显的差异。