2019年5月,arm发布了cortex-a77 cpu和mali-g77 gpu架构(准确说是ip,又称内核授权),刚刚量产的天玑1000+就是首款同时采用上述ip组合的旗舰级5g soc。
arm正式发布了下一代ip,由cortex-x1、cortex-a78和mali-g78组成的“三剑客”,从即将在今年9月发布的麒麟1000开始,未来的5g soc都将因它们而获益,并有望进一步拉近与同期苹果a系列soc的性能差距。
那么,arm新一代的“三剑客”都有啥特色?
骁龙865为啥最厉害?cpu和gpu架构了解下!
硬核科普!为啥说soc的性能取决于架构和工艺?
麒麟990的最大遗憾!arm cortex-a77架构到底好在哪?
自研才是出路!看高通和三星如何怒怼苹果a11处理器
为啥iphone总能默秒全?这才是苹果骄傲的本钱!
cortex-a78:常规迭代更新
目前,骁龙865、天玑1000和exyno 980等5g soc都拿cortex-a77架构作为cpu中的“大核”,也因此获得了强悍的运算动力。
作为cortex-a77的接班人,cortex-a78其实并没有什么本质上的变化,cortex-a76、a77、a78都采用了相同的austin微架构,三代核心在设计上存在很多共性。
用arm的话来说,就是芯片供应商(如高通、联发科等)在构建核心时可以非常容易地升级soc的ip设计,不会花费太多经历和成本,从而缩短了开发周期。
因此,大家不要对cortex-a78性能抱有太大期待,arm官方数据显示,a78相较于a77,其ipc(架构性能)只提升了7%,功耗降低了4%,内核小了5%,四核簇面积的缩小了15%。
还好,与cortex-a78搭配的是最新一代的5nm制程工艺,天生就具备更好的能效比。
现在soc内单个“大核”在满载时的功耗约为1w,此时7nm工艺生产的cortex-a77可以跑到2.6ghz,而5nm工艺生产的cortex-a78则可达到3ghz,相当于在相同功耗下获得了20%的性能提升。
另一方面,在相同的性能下,5nm工艺生产的2.1ghz cortex-a78功耗比7nm工艺2.3ghz的cortex-a77降低了50%,有助于提高5g手机的续航。
说实话,arm的这种计算方式令人头大,不合理也不公平。如果cortex-a77也用5nm工艺生产,性能也会比7nm工艺时提升不少,功耗也会明显下降。
反之,如果用7nm工艺生产cortex-a78,其性能和功耗表现也不见得比cortex-a77好多少。
只是,新工艺和新架构搭配是科技发展的趋势也最经济,还利于宣传。所以咱们也就别较真儿了。
cortex-x1:自研的终结
从iphone 5开始,苹果a系列处理器就开始了“自研”之旅,而这也是为什么每一代iphone的性能几乎都可以领先同期android手机圈的所有处理器。
所谓的“自研”,就是购买arm最高级的指令集授权,然后根据自身需要开发兼容arm的架构,能领先arm公版的cortex-a架构多少全看芯片商的技术水平。
高通曾在骁龙600/800时代采用过自研的krait架构,距离最新的骁龙820也是自研的kyro。只是,高通发现自研架构的能耗比很难领先公版cortex-a架构太多,不经济,所以从骁龙835开始就采取了boc战略,也就是咱们常说的“魔改”,基于现有的公版cortex-a架构进行版定制化。
华为从麒麟980开始,也采用了类似的思路,其大核也是基于cortex-a架构进行了“based”,同样是一种魔改。需要注意的是,公版cortex-a架构可以进行“魔改”的地方并不多,大家基本都是拿缓存部分开刀,所以无论是高通还是麒麟,其魔改后的内核与公版架构之间的性能差异并不大,关键还是看主频。
三星从exynos 8890开始也加入到自研大军,并推出了名为猫鼬(mongoose)的架构核心。但是,经过四代自主研发后,三星在2019年底已经决定放弃自研的mongoose内核,并解散了位于德州奥斯汀的整个研发团队,未来将全面使用arm的设计方案。
可见,除了苹果,其他芯片商的自研之路可谓一路荆棘,费力不讨好。
好消息是,arm此次发布的“三剑客”中的cortex-x1,其实就是一种允许芯片商在其上进行高度定制的ip内核,可以完全取代辛苦的“自研”之路。
从arm公布的架构细节上来看,cortex-x1与cortex-a78都是armv8.2指令集下的,指令集是兼容的,但cortex-x1是自定义cpu核,解码带宽从4路提升到5路,增加了25%,neon浮点从2条128b提升到了4条128b,相当于浮点性能翻倍。缓存方面,cortex-x1的l1缓存可达64kb,l2缓存1mb,l3缓存可达8mb,是cortex-a78的两倍。
基于以上的改进,cortex-x1较之上一代a77,其单核性能可提升30%、ai性能更是大涨100%。
按照arm的规划,未来cortex-x1将扮演旗舰级5g soc内的“超大核”,而cortex-a78则属于普通的“大核”,再与cortex-a55构成“1+3+4”的三丛集dynamiq集群,以实现性能和功耗的完美平衡。
唯一可惜的,就是cortex-x1内核会占用更大的封装面积。arm的资料显示,4个cortex-a78核心在搭配4mb l3缓存时,其性能比前代a77可提升20%,同时核心面积降低15%;而1个cortex-x1+3个cortex-a78在搭配8mb l3缓存时,虽然核心面积会增加15%,但峰值性能提升了30%。
换句话说,cortex-x1至少可以带来比cortex-a78额外的10%的性能提升,看起来也不大啊?
mali-g78:计算单元暴增
在android领域,arm公版的mali系列gpu已经一枝独秀,昔日的老对手powervr已被边缘化。而新一代mali-g78 gpu的问世,将进一步巩固arm的亲儿子在gpu领域的领先地位。
也许是没有太大的竞争压力,所以mali-g78依旧沿用了mali-g77采用的valhall图形架构,但它对全局时钟域进行了优化,改为全新的两级结构,实现了上层共享gpu模块与实际着色器核心频率的分离,也就是异步时钟域。这样一来,gpu的核心可以工作在与其他部分不同的频率上,可快可慢,从而解决几何输出与计算、纹理、引擎之间的不平衡问题,还能让gpu运行在不同电压上,从而降低功耗、提高能效,这也是桌面级cpu、gpu通用的做法。
此外,mali-g78还彻底重写了fma(融合乘加)引擎,包括新的乘法架构、新的加法架构、fp32/fp16浮点,可以节省30%的功耗。
在mali-g77时代,最多可以搭配16个计算单元,也就是mali-g77 mc16,但受制于成本、发热和功耗,哪怕是最激进的exynos 990也才用了11个计算单元,即mali-g77 mc11,天玑1000+则配备了mali-g77 mc9。
这一次,mali-g78最多可以武装24个计算单元,较之前辈增加了50%。但正如上面的原因,哪怕搭配最新的5nm工艺,估计实际商用的最大规模也就是16个左右,再多手机散热就压不住了。
根据arm的资料显示,得益于综合架构、工艺等各方面的改进,mali-g78相比于mali-g77的性能提升幅度可达25%,即便是在同等工艺条件下也可提升15%, 同时能效提升10%,机器学习性能提升15%。
看起来还不错。
此外,arm还新推出了mali-g68 gpu,用于填补mali-g7系列和mali-g5系之间的空白。从现有的资料来看,mali-g68的架构和参数和mali-g78一模一样,只是最多仅能搭配6个计算单元。
换句话说,搭配1~6个计算单元的mali-g78就叫mali-g68,超过6个计算单元的则是mali-g77。
即将在9月份发布的麒麟1000系列应该是首发cortex-a78和mali-g78的5g soc,但它能否用上cortex-x1架构还不得而知。而明年上市的骁龙875、天玑2000和exyno 1000系列也将用上“三剑客”中的至少1个成员,至于它们实际性能较之现有的旗舰能有多少提升,就让我们拭目以待吧。
MLC-LLM的编译部署流程
零线故障现象你关注了吗?
细品AMD的3D缓存技术
Linux电源管理实例分析
国泰证券:风起粤港澳大湾区
ARM Cortex-A78、Cortex-X1、Mali-G78三种技术对比
使用LPC1700的IEC 60601
串口屏解决方案:大彩串口屏在智能健身跑步机行业的应用
MobileAI2021的图像超分竞赛的最佳方案
最大利用率的LED灯电路
高通与苹果的关系是敌还是友
法拉第未来与美国混合动力公司合作开发新能源产品
停车场里的人工智能 五大服务迎来新变局
小米POCO M3海外发布:支持18W有线快充
夏普扩大提前退休制度至普通员工 最多发放12个月薪资补贴
基于可见近红外技术的棉花、地膜快速识别研究介绍
小米12和小米12pro有什么区别_小米12和小米12pro区别
涡轮增压发动机好不好_涡轮增压大揭秘
运算放大器放大的是电流还是电压
聚酰亚胺发展的四大新方向和透明PI (CPI)