一块汽车芯片抵一台超算的时间正在临近。
一周前,英伟达发布智能汽车最强芯thor,单片算力达到2000tops,性能相当于orin的8倍,在相近精度下,算力几乎是前段时间被禁的a100的4倍。
更恐怖的是,thor的出现直接把尚未问世的atlan扼杀在摇篮里,这种卷王行为把业内人士都看傻了。
然而,话音未落,在三天后的投资者会议上,另一家芯片豪门高通也发大招,宣布推出“集成式汽车超算soc” :snapdragon ride flex,soc外挂npu的组合算力最高也将达到2000tops。
据说有高通工程师在朋友圈放话:这就是我们的回应,给这场算力争霸赛增添了一丝火药味。 英伟达与高通的隔空斗法,真实地反映了智能汽车在数字指标上日益严重的贫富不均——燃油车时代,即使是一台轩逸这样的买菜车,f1方程式赛车的马力也不过是其8倍;而在智能电动汽车上,旁边一辆车的算力可能会是你车的数十倍,甚至数百倍。 透过通货膨胀一般的智能汽车芯片算力,我们尝试回答几个问题: 1、汽车芯片的算力,是怎么卷到2000t的? 2、智能汽车芯片,是不是算力越大越牛x? 3、汽车智能芯片超算化,会变成英伟达和高通的神仙打架吗?
算力卷王
近些年的智能驾驶发展史,某种程度上可以概括为芯片算力暴涨史。 2016年,因辅助驾驶致死事故和mobileye分道扬镳的特斯拉,找到英伟达定制了计算平台 drive px2,算力为24tops[1]。一般来说,tops越高,每秒能进行的ai计算越多,能承载的人工神经网络性能也越好。 就像手机、电脑常常用芯片跑分作为卖点,在深度学习席卷汽车行业的浪潮中,tops成了衡量智能驾驶能力先进与否的第一指标,英伟达ceo黄仁勋亦有名言:“tops就是新的马力”[2]。 今年ces展上,在算力层面吃过亏的mobileye 发布算力为176t的eyeq ultra,相比eyeq4提升50倍。同样,地平线今年即将登陆理想l8的j5芯片,算力亦高达128t,是j2芯片的34倍,唯恐落后于对手。 英伟达更是深谙算力即权力的游戏规则,继drive px2之后,英伟达在6年时间内发布了三代智能驾驶芯片,从xavier、orin再到thor,算力实现从30tops到254tops再到2000tops的跃迁,每一代都是“芯皇”般的存在。 如果以drive px2为基准,10年内英伟达的智能驾驶芯片ai算力增长了83倍,比传统的摩尔定律还要快。
英伟达thor智能驾驶芯片 为什么智能驾驶芯片这么“丧心病狂”地堆算力?这当中,既有英伟达两年一更新芯片架构的努力,也有台积电不断提高芯片制程工艺极限的功劳,但更重要的是有市场,翻译过来就是,下游企业纷纷患上了算力饥渴症。 其一,智能汽车上的传感器规格与数量均在近几年有了飞跃,带来了数据的暴涨。 比如今年开始交付的蔚来et7,全车搭载33个传感器,其中包括11枚800万像素高清摄像头,1个高精度激光雷达,5个毫米波雷达等,传感器每秒产生仅图像数据就达到8g,约等于一部90分钟的高清蓝光电影[3]。 为满足智能驾驶的实时处理需求,蔚来不得不启用4枚orin组成算力1016t的计算平台——传感器太多导致数据爆炸,单芯算力已是应对不及。 同时,智能驾驶算法的“大模型化”,也让芯片算力愈发吃紧。
特斯拉fsd感知算法比早期的autopilot算法复杂得多 去年,特斯拉率先在智能驾驶系统的感知模块中启用新型神经网络transformer,相比于传统的cnn,transformer性能大涨,可以帮助系统实现三维感知,并能拥有和人类一样的“记忆”能力。 特斯拉开路之后,transformer迅速席卷行业,但它并非没有代价——参数极多,消耗计算资源大,长城汽车旗下的自动驾驶公司毫末智行就发现,“transformer所需算力是cnn所需算力的100倍(在训练端)[4]。” 其次,汽车电子电气架构的集中化,也在催生超级芯片。
为了便于车内数据交互、降低总体成本,汽车行业正在竭力减少散落在车内各处的上百个ecu,将它们负责的计算任务整合到尽可能少的芯片中——汽车电子电气架构已由最早的分布式计算迭代到目前的域控计算,而下一代将是所需芯片更少的中央计算。
与之对应,“舱驾融合”的概念被提出来,这是一个终极目标:一枚主芯片同时负责智能驾驶与智能座舱的计算任务(当然会有其他小芯片辅助)。而自动驾驶动辄上千t的算力要求,和车内动辄几块2k屏的大屏趋势,逼迫这枚芯片必须在性能上狂飙。 面对这些需求,英伟达在产品线上果断砍掉了去年发布的智能驾驶专用芯片—算力1000t的atlan,以2000t算力的thor取而代之,高通flex平台紧急跟进,两家企业(在口头上)将智能汽车芯片送进了超算时代。
算力越大≠效果越好
在分析英伟达制霸ai芯片市场,股价五年暴涨20倍的原因时,分析师们往往会草草地抛出一个观点:算力为王。车企们在宣传智能汽车时,也常常有意无意地向用户传达一种思想:算力越大越牛x。 不过这并非事实。在真实的智能驾驶系统中,更大的算力只提供牛逼的可能性,但不保证牛逼的确定性。 一方面,企业通常对外宣传的tops,是一块芯片的ai峰值算力,但在实际运行中,芯片算力很难被充分利用。
一个不那么为人所知的事实是,在高数据量的计算任务中,最大的瓶颈常常是存储带宽而非算力。因为计算单元的运行频率远高于存储单元,芯片会陷入“算力等数据”的状态,高算力其实在空转[5]。 这就相当于餐厅里有一位米其林大厨,做饭又快又好吃,但受制于切菜工的效率,导致出餐率一直上不去。
存储能力成为ai应用的主要瓶颈 有效运用高算力的一个方法是在芯片中放置更多的高速缓存(sram),这种存储单元与计算单元距离更近,数据传输的延迟更低,可有效提升带宽。 比如特斯拉在其fsd芯片内封装了32mb的高速缓存,缓存带宽达到2tb/s,将每秒能处理的图像从drive px2的100余帧提升至2300帧,为其fsd beta算法提供了基础[6]。
但特斯拉做到这一切的前提是斥巨资从硅谷找到顶级半导体人才,进行自主研发,而能同时满足这样条件的车企并不多。 另一方面,即使通过各种方法尽可能把芯片算力用满,也不代表万事大吉——算力是智能驾驶的基础,算法才是灵魂。 关于算法的重要性,在游戏行业有一个生动的例子。2021年前,游戏玩家在打开gta5联机版时,即使拥有性能不错的电脑,也需要等待一段漫长的时间。后来有程序员解包发现,由于部分代码质量过低,某个只需一步完成的步骤,被迫跑了19.8亿次if语句——这段代码很简单,但占用了60%的计算资源[7]。 同样的道理在智能驾驶行业也成立:堆砌、消耗算力并不难,难的是通过高效算法将算力转化为实打实的用户体验。
一个有经验的算法团队常常能取得更高的算力费效比。比如小鹏刚刚向广州区域的p5车型推送了城市高阶辅助驾驶cngp,在行业大多基于上百t算力实现这一目标时,小鹏p5仅搭载了算力30tops的xaiver芯片,依靠的便是算法优化和高精地图加持[8]。 不久前与五菱一起推出低算力辅助驾驶方案的大疆车载认为,实现智能驾驶面临传感器、算力、算法、数据四座大山,四座山头需要一起翻越。换句话说,智能驾驶系统其实是一个木桶,决定最终体验的是不是某块长板,而是短板。 而在当下,整个汽车行业将芯片算力堆到数百乃至上千t的大有人在,但没有一家车企的辅助驾驶系统效果,比得上特斯拉基于144t算力做出来的fsd beta。面对这种情况,很难说智能驾驶行业的短板在芯片算力上。
神仙打架,车企真成组装厂?
英伟达与高通神仙打架,会造成智能汽车芯片三名之后寸草不生的局面吗?答案是否定的。 这是因为,与另一个芯片使用大户消费电子相比,汽车行业对成本更加敏感,市场高度分层,且对安全要求更高。而在目前,一枚汽车超算芯片很难同时满足上述条件。 从成本和市场角度来看,高算力芯片等于高成本,意味着只有部分高端车型才用得起,其下游车企往往是少数舍得下血本的硬件预埋派:先掏大价钱把算力、硬件堆高,再通过ota更新功能。
英伟达已经量产的orin,采用7nm工艺生产,算力254t,每片价格便达到400美元[9],目前只有蔚小理、智己、飞凡等品牌30万+的车型搭载。而thor的算力达orin 8倍,采用更先进的5nm工艺,其价格必定会比orin更加惊人。 而从安全角度看,统管智能驾驶与智能座舱的超算级芯片虽然更加简洁,数据流转效率更高,但代价是失去了硬件级的安全冗余。如果芯片没有做好隔离,智能驾驶与智能座舱的应用可能会相互带崩(比如车机死机造成辅助驾驶突然退出),影响车辆安全。这给擅长把控安全的传统汽车半导体大厂留下了机会。 由于成本高企且难以满足全部需求,车企中也分化出了硬件自研派,比如蔚小理一边与英伟达、高通称兄道弟,另一边则各自建立芯片自研团队,研发与自家算法、软件匹配程度更高的芯片,试图将命运掌握在自己手中。
而在广阔的辅助驾驶市场,更加主流的其实是服务中低端车型的够用就好派。他们不追求(也无力使用 )高端配置,而是用低成本芯片、传感器,在有限场景内将辅助驾驶功能做好。 比如大疆与五菱今年合作推出的智驾版 kiwi ev则更进一步,采用200万像素摄像头为主传感器,计算平台算力仅16t,全套辅助驾驶套件成本在一万以内。 随着此类方案的流行,一些平价智能驾驶芯片如地平线j3(算力5t)、德仪tda4(算力8t)正在打开越来越大的市场。
地平线ceo余凯的朋友圈 然而将时间线拉长,智能汽车对算力的需求在切实提升,汽车单枚大算力芯片取代多枚小算力芯片的趋势难以逆转,时间更像是英伟达与高通的朋友: 随着5nm工艺成熟、芯片出货量增加,超算级汽车芯片的价格会降低,从而在整体成本上更加节约。在发布会上,黄仁勋就夸下海口,表示thor能够“一片顶六片”,整体上能为车企降本数百美元。
thor芯片以一挑六 而影响一款芯片市场表现的隐形条件:软件与生态方面,英伟达各自手握ai训练和安卓开发生态,并拥有对应的软件工具链。近两年,英伟达与高通正在用软硬结合的方式,把越来越多的车企拉入其生态中。 国产智能汽车芯片的代表地平线也决定加入战局:明年,地平线将发布单芯片算力1000t的征程6,同样支持驾舱融合。在这之前,地平线的大算力芯片征程5获得了比亚迪、上汽、理想、红旗等国内车企的订单。 只是对车企们来说,一个棘手的问题在愈发清晰:一辆车的产品力正在越来越多地被一枚芯片所定义,车企如今的产品节奏正在被芯片大厂拿捏。如果不加码自研,车企很难逃脱罗永浩口中的“方案整合商”诅咒。
参考资料:
[1] ai领强算力时代,gpu启新场景落地,华西证券
[2] 英伟达最终活成了三芯,雷锋网
[3] 蔚来发布首款自动驾驶车型et7,蔚来官网
[4] 毫末和自动驾驶的3.0时代,顾维灏
[5] 人工智能遭遇“存储墙”,存算一体必将破墙而出,雷石投资
[6] 可能是全网最详细的特斯拉fsd芯片解析:是猛兽还是小猫?电动星球
[7] gta 5祖传「屎山」代码终于修复!r星认可黑客方案,还给他发了1万美元奖金,量子位
[8] 30tops算力就能实现自动驾驶?小鹏p5城市ngp体验,搜狐汽车
[9] 自主品牌转型7大分歧,看十余位车圈大佬高质量互怼,xev研究所
反击小米 三星在印度设最大手机工厂
程序员应该怎样提高工作效率
高通Zeroth:脑启发计算
ams AG光学传感器助力小米手机的技术创新发展
打造最适合你的零碳阳光房
智能驾驶芯片算力越大就越好吗
汽车供应链恢复?5月新能源车交付触底反弹,汽车市场利好不断
SMARTCAR软件平台实现汽车电子系统软件的整体设计
夏普SDP争夺战升级 三星来了要郭台铭出局?
霍尔效应传感器集成电路的关键设计特征
S7300以太网转以太网模块作为ModbusTCP主站 实现PLC与其它Modbus TCP设备的通讯
借助人工智能与物联网技术,未来健身将更加智能
电阻器的标注方法有几种_电阻器常用的标注方法
兆芯国产x86处理器亮相SWEDCS 2017
杜比与联想合作推出笔记本电脑新品类
ARM系统代码固化的串口实现方法
飞腾平台共与67家国内厂商的108款产品完成兼容适配
裁员成常态,魅族能否把握住5G机遇逆风翻盘
Redmi Note 9系列将于明日发布
贴片电阻上丝印标注50B、10C是什么意思?