作为一名拥有 40 多年半导体业务研发总监和 cmo 经验的工程师,我认为我自己和我的同行是合乎逻辑的。然而,我们当中有多少人可以诚实地说我们没有被诸如“我的小部件比你的快?”这样的说法所诱惑。恐怕这只是人性,尤其是当我们对你的专业知识没有信心来调查这些说法时。
问题始终是一个定义:我如何定义“更快”或“更低功率”或“更便宜”?这是基准试图解决的问题——它是关于具有一致的上下文和外部标准,以确保您将同类与同类进行比较。任何使用基准测试的人都非常清楚这一点(aimotive 诞生于一家领先的 gpu 基准测试公司)。
在尝试比较汽车 ai 应用的硬件平台时,解决这种轰炸式索赔的需求从未像现在这样紧迫。
10 tops 什么时候不是 10 tops?
无论是否有专用的 npu,大多数 soc 都将其执行 nn 工作负载的能力称为 tops:每秒 tera 操作。这只是 npu(或整个 soc)原则上每秒可以执行的算术运算总数,无论全部集中在专用 npu 中还是分布在多个计算引擎中,例如 gpu、cpu 矢量协处理器、或其他加速器。
但是,没有任何硬件执行引擎能以 100% 的效率执行任何工作负载的各个方面。对于神经网络推理,某些层(例如池化或激活)在数学上与卷积非常不同。在卷积本身(或其他层,如池化)可以开始之前,数据必须重新排列或从一个地方移动到另一个地方。其他时候,npu 可能需要等待来自控制它的主机 cpu 的新指令或数据,每个层甚至每个数据块。这些都导致完成的计算更少,从而限制了理论上的最大容量。
硬件利用率——不是它看起来的样子
许多 npu 供应商会引用硬件利用率来表明他们的 npu 执行给定 nn 工作负载的情况。这基本上是说,“这就是我的 npu 的理论容量有多少被用于执行 nn 工作负载。” 当然,这告诉我我需要知道什么。
不幸的是没有。硬件利用率的问题是定义之一:数量完全取决于 npu 供应商选择如何定义它。事实上,硬件利用率和 tops 的问题在于它们只告诉你硬件引擎理论上能够实现什么,而不是它实现的程度。
这可能会导致一些误导性信息。下面的图 1 显示了我们在额定 4 tops 的 aiware3p npu 与另一个额定为 8 tops 的知名 npu 之间进行的比较。
图 1:两个汽车推理 npu 的利用率与效率比较
对于两个不同的知名基准,竞争对手 x npu 声称 8 tops 容量,而 aiware3p 的 4 tops。这应该意味着它将提供大约 2 倍于 aiware3p 的 fps 性能。然而,实际上,情况正好相反:aiware3p 的性能提高了 2 到 5 倍,尽管它只是声称的 tops 的一半!
结论:tops 是衡量 ai 硬件能力的一种非常糟糕的方法;硬件利用率几乎与 tops 一样具有误导性。
npu 效率和自主性:优化 ppa 的关键
这就是为什么我认为您必须根据执行一组代表性工作负载时的效率而不是原始理论硬件容量来评估 npu 能力。效率定义为为一帧执行特定 cnn 需要多少操作,占声称的 tops 总数的百分比。该数字仅基于定义任何 cnn 的基础数学算法计算得出,无论 npu 实际如何评估它。它比较了实际与声称的性能,这才是真正重要的。
展示出高效率的 npu 意味着它将充分利用用于实现它的每平方毫米硅片,这意味着更低的芯片成本和更低的功耗。效率可为汽车 soc 或 asic 提供最佳 ppa(性能、功率和面积)。
npu 的自治性是另一个重要因素。npu 在主机 cpu 上放置多少 cpu 负载才能达到最高性能?这与内存子系统有什么关系?npu 必须被视为任何 soc 或 asic 中的大块——它对芯片和子系统其余部分的影响不容忽视。
结论
在设计任何 soc 或 asic 汽车时,ai 工程师必须专注于构建能够可靠执行其算法的生产平台,同时实现卓越的 ppa:最低功耗、最低成本、更高性能。他们还必须在设计周期的早期就选择硬件平台,通常是在开发最终算法之前。
效率是实现这一目标的最佳方式;tops 和硬件利用率都不是好的衡量标准。如果要满足苛刻的生产目标,评估 npu 的自主性也至关重要。
GTC23 | AI 加速保险理赔估算,为投保人带来更好的体验
河源联通“5G+工业互联网”融合创新应用的成果介绍
555集成电路的设计与讲解
区块链技术将改变全球体育事业
从WiFi收发器的PCB布局,看射频电路电源和接地的设计方法
如何设计更智能的Edge AI
探究量子计算与防御应用及发展情况
毕业设计So Easy:Java MySQL智能报纸阅读器APP应用
宇众环保:化学沉镍金工序操作指南
“2019金融新模式”阿尔法智能搬砖套利平台将翻倍提升市场交易额
谁分了苹果ipad的最大市场份额?
买个智能枕头可以边充电边听音乐然后睡觉好吗
高科技高成长!百望云荣登“2022年财税法高成长企业榜”
稳压管稳压的三个条件
什么是航空插头?我国航空插头行情如何?
AlGaN/GaN的光电化学蚀刻工艺
人工智能注定要成为新的人工智能领先制造商吗?
详解Python条件语句
HomePod mini或将遇到随机性的无法联网问题
为加快8英寸集成电路芯片生产线的建设,杭州士兰微电子出资5亿元认购士兰集昕新增的全部注册资本