座舱SoC天花板是SA8295P?

座舱soc天花板是sa8295p?当然不是,amd的一系列嵌入式处理器都可以碾压sa8295p,高通自己的座舱soc如sa8255p也可以在ai领域超越sa8295p,主要原因是sa8295p是2021年初的产品,其设计范围在2020年就已确定了,却没想到座舱领域被中国车企卷得不成样子,遂在定位低于sa8295p的产品上也持续加大算力。
2023年9月19日,极越01首发高通骁龙8295智舱芯片。骁龙8295是最强的车机芯片,采用5nm制程工艺、8倍于8155的算力。在安兔兔车机性能榜单中,其跑分近70万,几乎是骁龙8155的2倍。就在同一天下午,高合在展翼日正式发布自研高算力智能座舱平台。该平台将首搭高通qcs8550芯片,实现行业首发,根据官方数据对比显示,全面优于sa8295。不出意外的话,比亚迪下一代也会用qcs8550。
两者最大性能差别就是ai算力。
图片来源:高通
这张图有混淆视听之嫌,需要解释清楚,这个96tops是int4精度下的算力,而sa8295p是不支持int4精度的。不过即便比int8精度,qcs8550也有48tops,也是遥遥领先。
图片来源:高通
cpu也碾压sa8295p,高达300kdmips,gpu是adreno 740,算力达3.6tflops,同样比sa8295p要高。就制造工艺而言,qcs8550是4纳米,sa8295p还是5纳米。
qcs8550是何方神圣?
图片来源:高通
上图是高通对qcs8550/qcm8550的定位,显然它不是车规级芯片,不过这无所谓,特斯拉model s那颗amd显卡芯片连工业级都没做到,也没人指责过,这个至少是工业级,不是消费级的。而现在的model 3/y上用的amd ryzen v1000系列产品,是工业级产品,也不是车规级的,也没人敢指责特斯拉。再有就是国内顶级新能源大厂一直都是用高通非车规级模组做座舱,用非车规级做座舱的至少有30%以上。
高通qcs8550/qcm8550的参数
图片来源:高通
qcm就是带modem。看一眼这个cpu配置,略有经验的人便能看出,这就是手机领域骁龙8gen2的修改版,实际单看型号也能看出,8gen2的型号就是sm8550。
骁龙8gen3和8gen2对比
上表对比后不难发现,qcs8550就是8gen2,两者完全一致。
强大的ai算力不难做到,难以做到的是低成本下的高ai算力,而高通最擅长的就是低成本下的ai算力。对芯片来说硬件成本基本等同于die size面积大小,高通soc 的die size一般都很小,一般都低于120平方毫米,而英伟达orin和华为mdc 610要400平方毫米以上。座舱soc中,高通的ai算力异乎寻常地强,这个48tops真能运行大模型么?当然不能运行chatgpt3这种大模型,就算单张h100也不能,流畅运行chatgpt3至少需要8张h100和两片6千美元的cpu芯片。
高通的ai算力这么强主要源自其独特的dsp架构和vliw指令集,其渊源是ati,早在2004年高通与ati达成合作计划,决定把ati公司的3d图形技术集成到高通下一代移动处理器之中,看中的就是ati imageon。后来ati被amd收购,ati imageon也更名为amd imageon。2009年,高通以6500万美元收购了amd的移动设备资产,取得了amd的矢量绘图与3d绘图技术相关知识产权,不用再向amd缴纳技术授权费用。后来高通独立发展出了一种全新的gpu品牌体系——adreno。adreno gpu此后不断开花结果,历经多年演化,占据了移动gpu市场的主导地位。
实际ati的技术不止供养了日后的adreno,ati也开发了vliw技术。以ati radeon hd 5800为例,gpu由20个simd计算引擎组成,每个simd计算引擎由16个线程处理器单元(thread processor - tp)组成。而每个tp则是一个5-way的vliw processor。虽然后来vliw退出gpu领域,但在dsp领域大放异彩,在ai时代更是大展神威,助力高通成为移动霸主。
vliw就是超长指令集。
几种指令集的对比
图片来源:网络
vliw类似于多条risc指令的集合,vliw的思路是硬件尽量简单化,硬件只负责取指令和执行指令,其余一概不管,把困难推给编译器,让编译器来做指令调度。首先我们还得知道编译器是什么,比如c语言、c++、java这样的程序,当我们一行一行写下代码后,需要经过编译器的“翻译”才能变成可执行程序才可以执行,才可以实现代码到程序的转变。电脑(其实主要就是cpu)只认识0或1这两个数字。所有写的一切代码,都需要编译器帮我们编译也就是翻译成大量的01代码(实际中间还有一步就是生成汇编代码),才是cpu的“母语”,cpu才会熟练的帮我们飞速般去执行。
vliw把多条独立的指令打包为一个指令集并交给编译器,编译器根据指令的不同形式判断指令的运行周期,将运行周期比较一致的指令安排在一起发射并执行。vliw最大好处是实现了并行计算,比如vliw的数据总线长如果是1024比特,那么对4比特数据,一次可以取256个,取到数据进行并行计算(前提是你得有256套alu加寄存器之类的硬件系统),一个指令就可以完成256个周期运算,如同256个内核。缺点很明显,如果这256个计算中有一个卡壳了,那么其余255个必须停下来等待这个计算完成,这就是锁步,大家的步伐必须完全一致,而传统的超标量cpu不会,它可以乱序执行。还有一个缺点就是即使只有10个指令,其余那246个也必须空转,这意味着功耗很高。这与近期的simd可变矢量长度非常近似,但simd只是一次性取了256个4比特数据,vliw完全依靠软件就实现了并行计算。1994年英特尔和惠普签订协议,宣布共同开发面向高性能计算(hpc)的处理器,也就是后来的itanium,安腾。他们以vliw指令作为基础,提出了显式并行指令集运算epic( explicitly parallel instruction computing)。不过这对开放式软件系统挑战太大,2000年以后就消失了,但vliw+dsp慢慢崛起了。
vliw处理器示意图
图片来源:网络
dsp与传统cpu或gpu最大不同是其采用哈佛架构,将存储器空间划分成两个,分别存储程序和数据。它们有两组总线连接到处理器核,允许同时对它们进行访问,每个存储器独立编址,独立访问。这种安排将处理器的数据吞吐率加倍,更重要的是同时为处理器核提供数据与指令。dsp芯片广泛采用2-6级流水线以减少指令执行时间,从而增强了处理器的处理能力。这可使指令执行能完全重叠,每个指令周期内,不同的指令都处于激活状态。更像是脉动处理器,数据一次导入,流转周期很长,效率极高。dsp最强之处还有它可实现零开销循环,而ai引擎通常就是零开销循环结构,不会发生任何用于比较和分支的分支控制开销。
但dsp本质还是近似cpu的设计,不适合做并行计算,它最适合的是图像压缩算法或快速傅里叶变换(fft)这种算法,即串行数据流形式的计算,而vliw是天生并行指令集,二者结合后就非常适合ai运算,ai运算即是并行矩阵运算,也是数据流形式。
高通的ai表现与编译器关系非常密切,但大家都知道编译器是静态的,无法实现动态调整,因此某些模型可能在高通芯片表现很差,很多搞座舱的都没使用过高通的dsp运算能力,智能驾驶领域用dsp的人也很少,因为太难用了。而高通唯一一款通用ai计算器ai100上,高通没有使用其最擅长的dsp架构,而是传统的mac阵列架构,主要也是为了尽可能扩大应用面。
大模型是可以跑,但谁都不会公布延迟是多少毫秒,ai算力这游戏还是蛮有趣的。


中国联通携手多家合作伙伴完成公路隧道的5G试点部署和验证
对《工业机器人编程指令详解》的详细介绍
金星彩电通病良方-A6机芯
实时控制方式对交通和能源使用将造成怎样的影响
300b单端胆机电路图(六款模拟电路设计原理图详解)
座舱SoC天花板是SA8295P?
如何设置才能实现LED显示屏的定时播放及开关机
空调器的组成部分
美的电磁炉显示u1是什么故障
独具匠心让你自拍美到极致vivox9,让你一美再美
“两手准备”是否意味着国内企业选择与华为合作使用HMS和鸿蒙系统
德国的人工智能研究机构得到1.28亿欧元资金支持,比原计划数额翻了一倍
消防智能疏散的作用是什么,它的特性有哪些
关于傅里叶变换变换?
贴片发光二极管厂家有哪些_哪家好
科创板容百科技副总经理刘德贤介绍、履历信息
一颗螺丝引发出奇怪的正弦波干扰
vivo S6即将到来,零界全面屏与升降摄像头设计
LG宣布5款gram系列笔记本电脑通过英特尔Evo认证
猎豹当前重点发展AI业务 价值远远不是表面看到的那样