座舱SoC天花板是SA8295P？

座舱soc天花板是sa8295p？当然不是，amd的一系列嵌入式处理器都可以碾压sa8295p，高通自己的座舱soc如sa8255p也可以在ai领域超越sa8295p，主要原因是sa8295p是2021年初的产品，其设计范围在2020年就已确定了，却没想到座舱领域被中国车企卷得不成样子，遂在定位低于sa8295p的产品上也持续加大算力。
2023年9月19日，极越01首发高通骁龙8295智舱芯片。骁龙8295是最强的车机芯片，采用5nm制程工艺、8倍于8155的算力。在安兔兔车机性能榜单中，其跑分近70万，几乎是骁龙8155的2倍。就在同一天下午，高合在展翼日正式发布自研高算力智能座舱平台。该平台将首搭高通qcs8550芯片，实现行业首发，根据官方数据对比显示，全面优于sa8295。不出意外的话，比亚迪下一代也会用qcs8550。
两者最大性能差别就是ai算力。
图片来源：高通
这张图有混淆视听之嫌，需要解释清楚，这个96tops是int4精度下的算力，而sa8295p是不支持int4精度的。不过即便比int8精度，qcs8550也有48tops，也是遥遥领先。
图片来源：高通
cpu也碾压sa8295p，高达300kdmips，gpu是adreno 740，算力达3.6tflops，同样比sa8295p要高。就制造工艺而言，qcs8550是4纳米，sa8295p还是5纳米。
qcs8550是何方神圣？
图片来源：高通
上图是高通对qcs8550/qcm8550的定位，显然它不是车规级芯片，不过这无所谓，特斯拉model s那颗amd显卡芯片连工业级都没做到，也没人指责过，这个至少是工业级，不是消费级的。而现在的model 3/y上用的amd ryzen v1000系列产品，是工业级产品，也不是车规级的，也没人敢指责特斯拉。再有就是国内顶级新能源大厂一直都是用高通非车规级模组做座舱，用非车规级做座舱的至少有30%以上。
高通qcs8550/qcm8550的参数
图片来源：高通
qcm就是带modem。看一眼这个cpu配置，略有经验的人便能看出，这就是手机领域骁龙8gen2的修改版，实际单看型号也能看出，8gen2的型号就是sm8550。
骁龙8gen3和8gen2对比
上表对比后不难发现，qcs8550就是8gen2，两者完全一致。
强大的ai算力不难做到，难以做到的是低成本下的高ai算力，而高通最擅长的就是低成本下的ai算力。对芯片来说硬件成本基本等同于die size面积大小，高通soc 的die size一般都很小，一般都低于120平方毫米，而英伟达orin和华为mdc 610要400平方毫米以上。座舱soc中，高通的ai算力异乎寻常地强，这个48tops真能运行大模型么？当然不能运行chatgpt3这种大模型，就算单张h100也不能，流畅运行chatgpt3至少需要8张h100和两片6千美元的cpu芯片。
高通的ai算力这么强主要源自其独特的dsp架构和vliw指令集，其渊源是ati，早在2004年高通与ati达成合作计划，决定把ati公司的3d图形技术集成到高通下一代移动处理器之中，看中的就是ati imageon。后来ati被amd收购，ati imageon也更名为amd imageon。2009年，高通以6500万美元收购了amd的移动设备资产，取得了amd的矢量绘图与3d绘图技术相关知识产权，不用再向amd缴纳技术授权费用。后来高通独立发展出了一种全新的gpu品牌体系——adreno。adreno gpu此后不断开花结果，历经多年演化，占据了移动gpu市场的主导地位。
实际ati的技术不止供养了日后的adreno，ati也开发了vliw技术。以ati radeon hd 5800为例，gpu由20个simd计算引擎组成，每个simd计算引擎由16个线程处理器单元（thread processor - tp）组成。而每个tp则是一个5-way的vliw processor。虽然后来vliw退出gpu领域，但在dsp领域大放异彩，在ai时代更是大展神威，助力高通成为移动霸主。
vliw就是超长指令集。
几种指令集的对比
图片来源：网络
vliw类似于多条risc指令的集合，vliw的思路是硬件尽量简单化，硬件只负责取指令和执行指令，其余一概不管，把困难推给编译器，让编译器来做指令调度。首先我们还得知道编译器是什么，比如c语言、c++、java这样的程序，当我们一行一行写下代码后，需要经过编译器的“翻译”才能变成可执行程序才可以执行，才可以实现代码到程序的转变。电脑（其实主要就是cpu）只认识0或1这两个数字。所有写的一切代码，都需要编译器帮我们编译也就是翻译成大量的01代码（实际中间还有一步就是生成汇编代码），才是cpu的“母语”，cpu才会熟练的帮我们飞速般去执行。
vliw把多条独立的指令打包为一个指令集并交给编译器，编译器根据指令的不同形式判断指令的运行周期，将运行周期比较一致的指令安排在一起发射并执行。vliw最大好处是实现了并行计算，比如vliw的数据总线长如果是1024比特，那么对4比特数据，一次可以取256个，取到数据进行并行计算（前提是你得有256套alu加寄存器之类的硬件系统），一个指令就可以完成256个周期运算，如同256个内核。缺点很明显，如果这256个计算中有一个卡壳了，那么其余255个必须停下来等待这个计算完成，这就是锁步，大家的步伐必须完全一致，而传统的超标量cpu不会，它可以乱序执行。还有一个缺点就是即使只有10个指令，其余那246个也必须空转，这意味着功耗很高。这与近期的simd可变矢量长度非常近似，但simd只是一次性取了256个4比特数据，vliw完全依靠软件就实现了并行计算。1994年英特尔和惠普签订协议，宣布共同开发面向高性能计算（hpc）的处理器，也就是后来的itanium，安腾。他们以vliw指令作为基础，提出了显式并行指令集运算epic（ explicitly parallel instruction computing）。不过这对开放式软件系统挑战太大，2000年以后就消失了，但vliw+dsp慢慢崛起了。
vliw处理器示意图
图片来源：网络
dsp与传统cpu或gpu最大不同是其采用哈佛架构，将存储器空间划分成两个，分别存储程序和数据。它们有两组总线连接到处理器核，允许同时对它们进行访问，每个存储器独立编址，独立访问。这种安排将处理器的数据吞吐率加倍，更重要的是同时为处理器核提供数据与指令。dsp芯片广泛采用2-6级流水线以减少指令执行时间，从而增强了处理器的处理能力。这可使指令执行能完全重叠，每个指令周期内，不同的指令都处于激活状态。更像是脉动处理器，数据一次导入，流转周期很长，效率极高。dsp最强之处还有它可实现零开销循环，而ai引擎通常就是零开销循环结构，不会发生任何用于比较和分支的分支控制开销。
但dsp本质还是近似cpu的设计，不适合做并行计算，它最适合的是图像压缩算法或快速傅里叶变换（fft）这种算法，即串行数据流形式的计算，而vliw是天生并行指令集，二者结合后就非常适合ai运算，ai运算即是并行矩阵运算，也是数据流形式。
高通的ai表现与编译器关系非常密切，但大家都知道编译器是静态的，无法实现动态调整，因此某些模型可能在高通芯片表现很差，很多搞座舱的都没使用过高通的dsp运算能力，智能驾驶领域用dsp的人也很少，因为太难用了。而高通唯一一款通用ai计算器ai100上，高通没有使用其最擅长的dsp架构，而是传统的mac阵列架构，主要也是为了尽可能扩大应用面。
大模型是可以跑，但谁都不会公布延迟是多少毫秒，ai算力这游戏还是蛮有趣的。

中国联通携手多家合作伙伴完成公路隧道的5G试点部署和验证
对《工业机器人编程指令详解》的详细介绍
金星彩电通病良方-A6机芯
实时控制方式对交通和能源使用将造成怎样的影响
300b单端胆机电路图（六款模拟电路设计原理图详解）
座舱SoC天花板是SA8295P？
如何设置才能实现LED显示屏的定时播放及开关机
空调器的组成部分
美的电磁炉显示u1是什么故障
独具匠心让你自拍美到极致vivox9，让你一美再美
“两手准备”是否意味着国内企业选择与华为合作使用HMS和鸿蒙系统
德国的人工智能研究机构得到1.28亿欧元资金支持，比原计划数额翻了一倍
消防智能疏散的作用是什么，它的特性有哪些
关于傅里叶变换变换？
贴片发光二极管厂家有哪些_哪家好
科创板容百科技副总经理刘德贤介绍、履历信息
一颗螺丝引发出奇怪的正弦波干扰
vivo S6即将到来，零界全面屏与升降摄像头设计
LG宣布5款gram系列笔记本电脑通过英特尔Evo认证
猎豹当前重点发展AI业务价值远远不是表面看到的那样