ARM Cortex-A78、Cortex-X1、Mali-G78三种技术对比

2019年5月，arm发布了cortex-a77 cpu和mali-g77 gpu架构（准确说是ip，又称内核授权），刚刚量产的天玑1000+就是首款同时采用上述ip组合的旗舰级5g soc。
arm正式发布了下一代ip，由cortex-x1、cortex-a78和mali-g78组成的“三剑客”，从即将在今年9月发布的麒麟1000开始，未来的5g soc都将因它们而获益，并有望进一步拉近与同期苹果a系列soc的性能差距。
那么，arm新一代的“三剑客”都有啥特色？
骁龙865为啥最厉害？cpu和gpu架构了解下！
硬核科普！为啥说soc的性能取决于架构和工艺？
麒麟990的最大遗憾！arm cortex-a77架构到底好在哪？
自研才是出路！看高通和三星如何怒怼苹果a11处理器
为啥iphone总能默秒全？这才是苹果骄傲的本钱！
cortex-a78：常规迭代更新
目前，骁龙865、天玑1000和exyno 980等5g soc都拿cortex-a77架构作为cpu中的“大核”，也因此获得了强悍的运算动力。
作为cortex-a77的接班人，cortex-a78其实并没有什么本质上的变化，cortex-a76、a77、a78都采用了相同的austin微架构，三代核心在设计上存在很多共性。
用arm的话来说，就是芯片供应商（如高通、联发科等）在构建核心时可以非常容易地升级soc的ip设计，不会花费太多经历和成本，从而缩短了开发周期。
因此，大家不要对cortex-a78性能抱有太大期待，arm官方数据显示，a78相较于a77，其ipc（架构性能）只提升了7%，功耗降低了4%，内核小了5%，四核簇面积的缩小了15%。
还好，与cortex-a78搭配的是最新一代的5nm制程工艺，天生就具备更好的能效比。
现在soc内单个“大核”在满载时的功耗约为1w，此时7nm工艺生产的cortex-a77可以跑到2.6ghz，而5nm工艺生产的cortex-a78则可达到3ghz，相当于在相同功耗下获得了20%的性能提升。
另一方面，在相同的性能下，5nm工艺生产的2.1ghz cortex-a78功耗比7nm工艺2.3ghz的cortex-a77降低了50%，有助于提高5g手机的续航。
说实话，arm的这种计算方式令人头大，不合理也不公平。如果cortex-a77也用5nm工艺生产，性能也会比7nm工艺时提升不少，功耗也会明显下降。
反之，如果用7nm工艺生产cortex-a78，其性能和功耗表现也不见得比cortex-a77好多少。
只是，新工艺和新架构搭配是科技发展的趋势也最经济，还利于宣传。所以咱们也就别较真儿了。
cortex-x1：自研的终结
从iphone 5开始，苹果a系列处理器就开始了“自研”之旅，而这也是为什么每一代iphone的性能几乎都可以领先同期android手机圈的所有处理器。
所谓的“自研”，就是购买arm最高级的指令集授权，然后根据自身需要开发兼容arm的架构，能领先arm公版的cortex-a架构多少全看芯片商的技术水平。
高通曾在骁龙600/800时代采用过自研的krait架构，距离最新的骁龙820也是自研的kyro。只是，高通发现自研架构的能耗比很难领先公版cortex-a架构太多，不经济，所以从骁龙835开始就采取了boc战略，也就是咱们常说的“魔改”，基于现有的公版cortex-a架构进行版定制化。
华为从麒麟980开始，也采用了类似的思路，其大核也是基于cortex-a架构进行了“based”，同样是一种魔改。需要注意的是，公版cortex-a架构可以进行“魔改”的地方并不多，大家基本都是拿缓存部分开刀，所以无论是高通还是麒麟，其魔改后的内核与公版架构之间的性能差异并不大，关键还是看主频。
三星从exynos 8890开始也加入到自研大军，并推出了名为猫鼬（mongoose）的架构核心。但是，经过四代自主研发后，三星在2019年底已经决定放弃自研的mongoose内核，并解散了位于德州奥斯汀的整个研发团队，未来将全面使用arm的设计方案。
可见，除了苹果，其他芯片商的自研之路可谓一路荆棘，费力不讨好。
好消息是，arm此次发布的“三剑客”中的cortex-x1，其实就是一种允许芯片商在其上进行高度定制的ip内核，可以完全取代辛苦的“自研”之路。
从arm公布的架构细节上来看，cortex-x1与cortex-a78都是armv8.2指令集下的，指令集是兼容的，但cortex-x1是自定义cpu核，解码带宽从4路提升到5路，增加了25%，neon浮点从2条128b提升到了4条128b，相当于浮点性能翻倍。缓存方面，cortex-x1的l1缓存可达64kb，l2缓存1mb，l3缓存可达8mb，是cortex-a78的两倍。
基于以上的改进，cortex-x1较之上一代a77，其单核性能可提升30%、ai性能更是大涨100%。
按照arm的规划，未来cortex-x1将扮演旗舰级5g soc内的“超大核”，而cortex-a78则属于普通的“大核”，再与cortex-a55构成“1+3+4”的三丛集dynamiq集群，以实现性能和功耗的完美平衡。
唯一可惜的，就是cortex-x1内核会占用更大的封装面积。arm的资料显示，4个cortex-a78核心在搭配4mb l3缓存时，其性能比前代a77可提升20%，同时核心面积降低15%；而1个cortex-x1+3个cortex-a78在搭配8mb l3缓存时，虽然核心面积会增加15%，但峰值性能提升了30%。
换句话说，cortex-x1至少可以带来比cortex-a78额外的10%的性能提升，看起来也不大啊？
mali-g78：计算单元暴增
在android领域，arm公版的mali系列gpu已经一枝独秀，昔日的老对手powervr已被边缘化。而新一代mali-g78 gpu的问世，将进一步巩固arm的亲儿子在gpu领域的领先地位。
也许是没有太大的竞争压力，所以mali-g78依旧沿用了mali-g77采用的valhall图形架构，但它对全局时钟域进行了优化，改为全新的两级结构，实现了上层共享gpu模块与实际着色器核心频率的分离，也就是异步时钟域。这样一来，gpu的核心可以工作在与其他部分不同的频率上，可快可慢，从而解决几何输出与计算、纹理、引擎之间的不平衡问题，还能让gpu运行在不同电压上，从而降低功耗、提高能效，这也是桌面级cpu、gpu通用的做法。
此外，mali-g78还彻底重写了fma(融合乘加)引擎，包括新的乘法架构、新的加法架构、fp32/fp16浮点，可以节省30％的功耗。
在mali-g77时代，最多可以搭配16个计算单元，也就是mali-g77 mc16，但受制于成本、发热和功耗，哪怕是最激进的exynos 990也才用了11个计算单元，即mali-g77 mc11，天玑1000+则配备了mali-g77 mc9。
这一次，mali-g78最多可以武装24个计算单元，较之前辈增加了50%。但正如上面的原因，哪怕搭配最新的5nm工艺，估计实际商用的最大规模也就是16个左右，再多手机散热就压不住了。
根据arm的资料显示，得益于综合架构、工艺等各方面的改进，mali-g78相比于mali-g77的性能提升幅度可达25%，即便是在同等工艺条件下也可提升15%，同时能效提升10%，机器学习性能提升15%。
看起来还不错。
此外，arm还新推出了mali-g68 gpu，用于填补mali-g7系列和mali-g5系之间的空白。从现有的资料来看，mali-g68的架构和参数和mali-g78一模一样，只是最多仅能搭配6个计算单元。
换句话说，搭配1~6个计算单元的mali-g78就叫mali-g68，超过6个计算单元的则是mali-g77。
即将在9月份发布的麒麟1000系列应该是首发cortex-a78和mali-g78的5g soc，但它能否用上cortex-x1架构还不得而知。而明年上市的骁龙875、天玑2000和exyno 1000系列也将用上“三剑客”中的至少1个成员，至于它们实际性能较之现有的旗舰能有多少提升，就让我们拭目以待吧。

MLC-LLM的编译部署流程
零线故障现象你关注了吗？
细品AMD的3D缓存技术
Linux电源管理实例分析
国泰证券：风起粤港澳大湾区
ARM Cortex-A78、Cortex-X1、Mali-G78三种技术对比
使用LPC1700的IEC 60601
串口屏解决方案：大彩串口屏在智能健身跑步机行业的应用
MobileAI2021的图像超分竞赛的最佳方案
最大利用率的LED灯电路
高通与苹果的关系是敌还是友
法拉第未来与美国混合动力公司合作开发新能源产品
停车场里的人工智能五大服务迎来新变局
小米POCO M3海外发布:支持18W有线快充
夏普扩大提前退休制度至普通员工最多发放12个月薪资补贴
基于可见近红外技术的棉花、地膜快速识别研究介绍
小米12和小米12pro有什么区别_小米12和小米12pro区别
涡轮增压发动机好不好_涡轮增压大揭秘
运算放大器放大的是电流还是电压
聚酰亚胺发展的四大新方向和透明PI (CPI)