Arm微架构分析系列—Arm的X计划

1. 引言
前文介绍了arm公司近几年在移动处理器市场推出的cortex-a系列处理器。cortex-a系列处理器每年迭代，性能和能效不断提升，是一款非常成功的产品。但是，arm并不满足于cortex-a系列每年的架构小幅度升级，又推出了x计划，也就是cortex-x产品线。cortex-x系列处理器采用了激进的架构设计，大幅度提升移动处理器的性能（俗称超级大核），本文将重点介绍arm的cortex-x系列产品。
2. x计划起源
cortex-x计划起源可以追溯到2016年，当时arm推出了一个新的客户licence叫做“build on cortex”，允许用户请arm基于cortex核心做一些定制优化，如可以增加或者减少cache数量等，客户如高通公司一直是该计划的使用方，用于开发和迭代每年的kyro系列处理器。到了2020年，arm公司正式宣布推出cortex-x这一全新的高性能处理器设计计划。cortex-x计划的目标是为高端移动平台、云服务场景、边缘计算和高性能计算设备提供更快、更强大的处理器核心。
cortex-x系列定制处理器计划，相比2016年的定制方案要更加深入，cortex-x系列处理器的目标是给用户提供足够强大性能的核心，在此计划下芯片厂商可以早期参与arm的cortex处理器架构设计，并基于 cortex-x 核心进行定制优化，以适应自己的产品需求。但是从产品的表现看，由于arm每年都在迭代cortex-x系列处理器（2023，第四年，预计会更新cortex-x4），迭代速度和周期都非常快，芯片厂商并没有针对x系列处理器特殊定制微架构，而是通过搭配不同尺寸的缓存，设计出面向不同价位段的产品。
cortex-x系列的出现，和市场竞争日益激烈，芯片厂商有较强需求相关。市场上，苹果公司坚持自己研发a系列处理器，苹果的a系列处理器是专为iphone和ipad设备设计的自研处理器，基于arm指令集，苹果自己设计并优化了微架构。从2010年推出的a4处理器开始推出第一款量产产品，当前苹果a系列处理器已发展到a16（2022年）。a系列处理器一直采用较为激进的微架构设计，通过强大的计算能力领先行业。最新a16还是保持armv8指令集，没有升级到armv9指令集，最后我们会简单对比下cortex-x系列和苹果的a系列处理器的差异。
2017年至2022年的arm系列处理器
3. cortex-x1：第一代cortex-x处理器
2020年5月，arm发布了基于armv8.2架构的最后一款处理器cortex-a78，同时还发布了一颗性能更强大的cortex-x1处理器。cortex-x1 处理器比之前的 cortex-a77 提升了 30% 的性能，由于采用大缓存的设计架构，还提升了 23% 的芯片能效。简单总结下，x1提供了更强的性能，整体更优秀的能效，但是极限功耗高于cortex-a78。
cortex-x1性能强大，能效有明显改善，但是由于增大了缓存和处理单元，使得芯片的整体面积增大不少，厂商往往出于成本考虑，一般在处理器中只会放置一颗cortex-x系列处理器来提升单线程的峰值性能。从cortex-x1出现后，市场上的旗舰处理器架构发生了变化，逐步从4+4架构，演变成有一个超级大核心的1+3+4架构。
下图是一个典型示意图，在5nm工艺下如果仅升级到a78，性能提升20%，面积可以减少15%；在5nm工艺下升级到1个x1+3个a78，l3增大，峰值性能可以提升30%，但是面积要增加15%，一来一回差异30%芯片面积，这样看来，旗舰芯片要涨价也情有可原了。
我们看一下cortex-x1的微架构细节，相比a78，cortex-x1具体有以下提升：
1、bpu分枝预测单元的l0 btb从64提升到96，增加50%；
2、前端decode从4路提升到5路；
3、mop通路从6路提升到8路；
4、mop cache从1.5k提升到3k，增大一倍；
5、rob缓冲从160（推测）提升到224（参考，amd的zen2处理器的rob是224）；
6、l1l2l3都较大，分别是64kb起、256kb起、最多8mb；
7、执行单元整数和存储部分变化不大，浮点单元相比a78提供了2倍的neon单元，可以同时提供4个128bit运算能力；
8、存储单元通路虽然没有变化，但是其loadstore的缓冲数量增加了33%。
下面用一张表格列举了一些微架构的核心变化：
第一代的cortex-x1还是使用的armv8.2的指令集，并没有升级到armv9，似乎arm觉得要在2021年同时发布armv9和全新的cortex-a、cortex-x系列压力有点大，所以提前将cortex-x1的发布放在了2020年。
可惜，cortex-x1的命运可谓生不逢时，2020年采用cortex-x1的典型旗舰处理器有三星的exynos 2100和高通的snapdragon 888，这两款处理器都搭载了三星的5nm工艺（5lpe），这一次三星工艺翻车了，架构的提升得不到工艺的补偿，导致这两款处理器的性能和功耗的表现都不是很好。目前（2023年）市面上还活跃着不少采用a78处理器架构的芯片，如mtk的天玑8100、8200等处理器，但是已经鲜少看到搭载cortex-x1处理器的芯片了。
4. cortex-x2：第二代cortex-x处理器
2021年5月，arm的cortex-x2系列处理器如期而至。这一次，cortex-x2正式升级到了armv9新架构，搭载了sve2指令集，并且只支持运行64bit软件。还记得a710的产品代号叫做matterhorn么？这一代arm为了更好的记忆产品代号，将cortex-x2处理器的产品代号命名为matterhorn-elp，后续cortex-x系列应该也是基于同期cortex-a系列的产品代号，增加elp后缀，elp的全称是enhanced lead partner的意思。
第一代的cortex-x1由于搭配工艺的原因导致整体不佳的表现并没有掩埋cortex-x系列微架构的成功，arm计划将cortex-x系列发扬光大，后续我们看到的也是每年一更新的快速迭代节奏。如此快速的更新节奏，芯片厂商也很难深度定制，后续各大厂商发布的几款采用cortex-x系列处理器的产品，还是采用了arm的公版架构，基于产品的价位段，在cache容量上做一些差异化的配置。
从上图中可见，arm对于两个系列的策略有所不同，cortex-a系列主打均衡能效并小幅度改善性能，cortex-x2相比cortex-x1在性能上有更明显的提升，进一步拉开了a系列和x系列的性能差距，由此可见cortex-x系列的目标是推进arm核心架构的算力提升和突破。
从互联网上可以找到cortex-x2的微架构框图，我们可以此对比cortex-x2和cortex-x1的微架构差异，并分析影响性能提升的因素。cortex-x2相比cortex-x1，在微架构上有以下变化：
1、将分支预测和fetch解耦，提升并行度；
2、指令流水线从11级减少到10级，dispatch从2个时钟周期减少到1个时钟周期；
3、rob缓冲从224提升到288，提升了30%；
4、支持sve2 simd指令集；
5、ml能力支持bfloat16；
6、取消了aarch32支持；
7、loadstore结构体缓冲提升33%；
8、d-tlb从40提升到48，提升了20%；
再来看看具体性能数据，arm宣称cortex-x2相比cortex-x1在整数性能上提升了16%，在ml能力上提升了2倍。回顾一下a710，arm宣称的数据是相比a78提升了10%的整数性能。从能效曲线上看，cortex-x2的最大性能和功耗都有增加，能效在低频率区间和cortex-x1差异不大，在中高频率区间相比cortex-x1有改善。由于极限功耗持续增加，对于散热能力和发热策略改善提出了更大的诉求和压力。
2021年，第一代搭载了cortex-x2的处理器高通8gen1，由于采用了三星4nm lpx工艺，性能功耗的表现不是很理想，后续高通将工艺切换到台积电4nm工艺，在2022年推出了同样设计的8+gen1处理器，宣称cpu功耗降低了30%，这才发挥出了cortex-x2的实力，目前有多部热门手机搭载，当前也是cortex-x系列产品中卖的最好一代。
5. cortex-x3：第三代cortex-x处理器
2022年6月，市场上还在关注升级新工艺的cortex-x2系列处理器产品时，arm发布了当年的新品cortex-x3，cortex-x3的代号是makalu-elp，和同期coretex-a715的代号makalu保持一致。2021年的cortex-x2肩负着升级armv9指令集的任务，在微架构上的修改上相比第一代并不是很多。新一代的cortex-x3在微架构上的升级和变化要更多一些，后续我们会详细分析。性能上，arm宣称cortex-x3在性能相比上一代ipc提升11%，综合性能有22%的提升（包含工艺的提升）。
从cortex-x2开始，x系列处理器就不再支持32bit应用，这一代arm继续针对64bit进行微架构的优化，通过剔除和优化一些陈旧的32bit兼容设计，进一步提升64bit应用程序的执行效率。
下面我们具体看一下cortex-x3微架构相比上一代的变化：
1、mop cache尺寸变化。随着半导体工艺的持续演进，接下来的3nm新工艺将继续缩小半导体器件的尺寸，但是，在半导体中sram的尺寸并没有随器件尺寸缩小而同步缩小。如何减少sram的占用，是对先进工艺设计提出的一个考验。在cortex-x3的前端设计中，arm将l0的mop cacha的sram从上一代的3k减少到1.5k，推测也是为了减少未来在先进工艺中sram的占比。同时，arm提出通过优化cache的填充算法，来做到尽量不影响性能。记得mop cache在a77引入时就有讨论过，1.5k的容量就可以达到85%的命中率，增加容量带来的边际效益也增加，所以增大cache带来的效果提升会越来越小，所以这次arm将cortex-x3的mop cache降低到1.5k（同期的a715则是取消了mop cache）。
2、fetch-decode通路从5路提升到6路，fetch能力提升了20%；
3、在rob重排序缓冲区上，上一代cortex-x2是228个，cortex-x3继续提升11%，达到了320 entries；
4、arm继续提升cortex-x3的分支预测能力，l1 btb从64提升到96，l2 btb从16384提升到24576。分支预测单元通过解耦合设计，和fetch形成两条核心指令通路，大幅提升同步执行效率，一旦发生了分支错误，可以快速从btb缓冲中拿到需要的指令，进行快速切换。通过这些优化，arm宣称平均分支预测延迟周期数减少了12.2%，整体执行流程中stall占比降低了3%；
5、在分支预测模块上持续优化，cortex-x3中为indirect branches新增了一个独立预测单元，并提升了conditional branches的准确率，arm宣称平均的分支预测错误率可以降低6.1%；
6、流水线的优化，cortex-x3继续优化了流水线，从10级优化到9级，主要是优化了mop cache的读取周期；
7、执行单元上，这次cortex-x3大幅度提升了整型alu的数量，从4个提升到6个，是一个比较大的变化，整体从2个branch+2个alu变化为2个branch+4个alu，主要是提升了整型性能；
8、访存单元上，因为提升了alu的数量，相应的整型读取带宽也从24提升到了32，并且增加了两个额外的数据预取模块。
上面是cortex-x3的微架构框图，我们把x1至x3放在同一张表中对比：
6、cortex-x3和苹果处理器的对比
cortex-x系列处理器通过三代的迭代，不断升级微架构提升性能，其单核心有明显提升，已经在拉近苹果a系列处理器和intel台式机处理器的差距。图中对比了不同处理器的单核心的性能，可以看到cortex-x3相比cortex-x2有进一步的提升，距苹果的a15处理器还有一些差距。目前我还没有找到苹果a15处理器的微架构，但是有找到2020年a14处理器大核心（firestorm）的微架构，下面通过表格做了一个对比。
从cortex-x系列和苹果a14的对比可以看出，苹果在设计a系列处理器时对于微架构的调整更加激进，采用了更大的l1、l2缓存，decoder数量更多，而rob缓冲的尺寸几乎是cortex-x系列的一倍，这也对于指令重排序的效率和算法优化能力提出了更高的要求。
虽然cortex-x系列每年迭代，相比苹果的a系列激进的设计，目前还存在一定的差距。但是随着cortex-x系列处理器的每年迭代更新，我们也希望看到在微架构能力上打平甚至超过竞品的那一天。
由于苹果在a系列处理器采用大缓存大尺寸设计，在智能手机产品中一般是放置两颗大核心，采用2+4的架构。采用cortex-x系列处理器的安卓手机，一般采用八核心的架构，例如最新的高通8gen2处理器，采用1个cortex-x3+2个a715+2个a710+3个a510的组合架构，提供了5个大核心的算力，在多核心算力上相比6核心有多2个核心的优势，一定程度上弥补了多核心的差距。
7、总结和对cortex-x4处理器的期望
距2023年中arm发布cortex-x4处理器的时间不远了，下一代的cortex-x4处理器的代号叫做hunter-elp，期望这一代的“猎人”能给我们带来更多的惊喜，新的架构改了什么地方，有多少性能提升，我也会第一时间关注和分享。
arm公司通过三年时间迭代cortex-x系列处理器，每年的性能上都有两位数的提升，切实让消费者使用上了更快更强的处理器和产品，这半年来，采用cortex-x2和cortex-x3系列架构的高通8+gen1、8gen2、mtk的天玑9200等处理器的市场口碑都很不错。
此外，高通的8gen2处理器还第一次打破了传统4颗大核心的架构，提供了1+4+3的5颗大核心配置组合。期望未来的产品不但可以看到arm的最新架构，而且可以看到更多有意思的cpu核心架构组合，如果可以在一个处理器中放置多颗cortex-x核心，相信基于cortex-x系列的arm处理器也可以挑战苹果 a系列处理器综合性能。

探讨实时机器学习的概念及其应用现状
C#时频联合分析双向变换发布！
智原推出系统级静电防护服务方案以加快ASIC量产时程
EtherCAT总线运动控制器中简单易用的直线插补
三星推出全球首款用于PC的LPCAMM内存：可拆卸、体积大降60%
Arm微架构分析系列—Arm的X计划
腾讯视频的Linux客户端发布版本为v1.0.10
泰克示波器CVI开发波形抓取数据控制软件NS-Scope
体验:ET521A多功能示波表在变频器维修中的检测效果
基于PXI平台的ESP系统性能测试平台
国芯思辰｜对标赛普拉斯FM25V01-G，拍字节铁电存储器(FRAM)PB85RS128用于舞台音响上，擦写高达100万次
HarmonyOS 2.0的beta版本最早将于2020年12月到货
吉利新款博瑞全面升级,将于8月1日重磅来袭！搭载1.8T发动机,百公里油耗7.8L
电池修复知识：极板故障不可逆原理的讲解
小米Max2什么时候上市最新消息：续航神器！小米Max2即将发布，配置强劲，售价良心
电动机保护自复式过欠压保护器的选择
谷歌把AI带上科技与人文的十字路口
都是噪声惹的祸：ENOB消失之谜（第2 部分）
示波器十大基础知识
紫外老化试验箱的使用注意事项及保养方法