未来性能增长需依赖架构上改变因此需要用FPGA进行人工智能硬件加速

摩尔定律从2003年开始放缓。为了延续性能倍增、功耗减半，intel cpu采用多核来实现。然而，到2015年以后，多核也达不到了。内核数每增加一倍，运算性能并不能成倍增长。因此，业界需要寻找新的方法来实现延续，比如针对应用进行硬件加速。
人工智能的硬件加速，如果想要做得好的话，需要具备三个条件：运算能力很强，数据传输高效，存储器带宽高。业界衡量性能的指标包括性能功耗比和性能价格比。
achronix semiconductor公司市场营销副总裁steve mensor
硬件加速应用六大应用场景
日前，achronix semiconductor公司市场营销副总裁steve mensor告诉记者，硬件加速应用有几大类应用场景：
1.云的加速。涉及压缩解压缩、区块链和安全等，需要很高的运算能力和功耗成本比。
2.边缘计算。很多应用由于需要低延迟，不允许将数据传到数据中心处理，而需要在边缘处理，并且需要低功耗。
3.存储。有些应用需要高效率，因而要求在存储器里进行数据处理。
4.5g基础设施。5g网络中的bbu（基带处理单元）和rru（射频拉远单元），其协议处理有很大不确定性，需要用fpga来编程。
5.传统的网络加速需要用fpga，而现在网络中出现了新的智能网卡，要求在发给服务器之前进行加解密、压缩解压缩等各种处理。
6.自动驾驶。涉及人工智能、数据运算和传感器融合等，需要具有可编程性。
人工智能/机器学习应用为何要用fpga？
fpga在人工智能/机器学习（ai/ml）上扮演重要角色。ai涵盖各种应用和层面，工业、教育、政府、农业等各行各业都可以运用。个人电脑在1980年到2000年增长很快。从2000年开始（包括智能手机的出现），无线互联网增长更快。而在未来，据估计，随着5g的到来，ai的增长又将会更快。据估计，在半导体业务方面，到2024年，ai将占有约500亿美元市场。
mensor介绍，硬件加速从实现上看可以有几种不同选择：cpu、gpu、fpga和asic。cpu最有灵活性，能够覆盖各种不同应用，但它的能力（效率）最弱。asic的成本、性能和功耗最好，但它不能改变。目前ai算法层出不穷，asic不能满足各种要求。
若要同时具有可编程性和效率，则可以采用gpu和fpga。在功耗和效率上，fpga比gpu更强。尤其是在ai推理上，对于低精度场景，fpga的性能功耗比比gpu大16倍。“gpu更适合用在服务器侧，而fpga则更适合用在边缘侧。”mensor补充说。fpga适合做推理，gpu适合做训练。
7nm efpga性能增强
日前，acronix推出新的7nm架构ip——speedcore 7t，在功耗、性能和裸片尺寸（ppa）上均有改进。
从工艺上看，7nm比16nm快60%。同时，它针对ai/ml做了新的架构改进（第四代架构），对于ai/ml应用，性能比16nm增长3倍。此外，相比16nm，其功耗降低50%，裸片面积减少2/3。
7nm相对16nm在架构上做了很大改变，例如算逻单元（alu）增加一倍，布线布局做了改善，并且针对ai/ml运算增加了新的模块（详见下图）。alu和max（）针对ai/ml更有效率，其他四个则适用于所有应用，他补充说。
从走线架构来看，相对于传统架构，它增加了bus走线，这对很多应用都很有用，例如现在有的ai应用数据高达512位。bus走线是在传统走线之上，是另外一层，没有占用传统le（逻辑单元）和开关等等。尤其是在ai/ml方面更有效率，mensor指出。
除了bus走线以外，它还增加了bus mux，例如4进1出（不固定，也可以是2或3个）。ai/ml应用可能有几个不同存储器输入，如果用传统方法来做，则可能消耗很多lut/le资源以及布线布局资源。而新的bus布线则不会占用到这些资源。此外，其性能比传统方法实现2倍增长。
ai/ml计算趋势
下面来看ai/ml计算趋势。首先来看算法，例如cnn、dnn、rnn等，对于图像和语音等不同应用需要用到不同算法。然后是精度，int 32相比int 8，其功耗会高10倍。新的算法带来精度降低，而准确性却损失很小，是发展趋势。而speedcore 7t ip对所有算法都提供支持，尤其是对小的算法来说很有效率。除了运算能力以外，ai/ml涉及大量的矩阵乘运算，在存储器和fpga之间有大量的数据传输，因此两者要靠得很近，从而提高效率。
下一代dsp模块针对矩阵乘的优化
下一代dsp模块——mlp（机器学习处理器）——针对矩阵乘运算进行优化，可以支持多种不同精度，性能达750mhz，并且支持不同类型（浮点、定点）运算。一个mlp可以支持1个16*16、8个8*8、12个6*6或16个4*4，满足不同精度的乘方。
传统上，做矩阵乘运算，一行一列相乘得到一个数据，但是数据很宽，需要经过多次运算才能得到一个数据。对于mlp来说，则可以采用块的方式做。对于1个时钟周期，可以实现6倍运算增长。
mlp和存储器放在一起。传统架构去做矩阵乘，性能受制于dsp、mlp以及走线。现在把存储器和mlp放在旁边，数据传输很快，不需要经过le。另外，mlp和mlp之间走线类似asic连线。要做更宽运算，这种走线与传统相比可以将性能提升不小。
总的来说，这种架构对于ai/ml运算具有可编程性，可以根据性能、功耗和精度进行权衡。矩阵乘运算可以将参数放在mlp存储器中运行，采用级联方式可以一次性完成，获得几倍性能提升。mlp和存储器及mlp和mlp之间绑在一起，这样就不用经过le，速度很快。另外，mlp可以支持不同精度（如4、6、8比特），非常灵活，而cpu只能支持某种比特乘法。另外，它支持多重取整和饱和，不需要在le中再做另外一层运算。
除了用mlp做乘法以外，也可以用lut来做。传统用lut做8*8运算，需要36个6输入lut。现在用新的架构来做，如果是6输入lut，只需要用到一半，即18个lut即可。甚至精度更低一点则会更有效率。
此外，speedcore ip资源可以定制。acronix提供speedcore builder tool工具供用户进行参数选择。一旦确定需要多少资源，一个半月即可实现ip交付。这个架构现在是针对7nm所做，在2019年年中还会过渡到16nm。
总结
摩尔定律现已打破。未来性能增长需要依赖架构上的改变，即需要利用可编程的硬件加速器来实现性能增长。
对于ai/ml应用，需要有高运算能力的运算单元、高效高速数据传输，以及高存储带宽。
speedcore 7t在第四代架构中做了很多ai/ml优化。基本性能提高60%，ai/ml性能提高3倍，功耗减半，面积缩减到1/3等。可以使ai/ml应用设计很有效率，在运算能力和功耗等方面都有很大改进。

工信部发电子信息制造业绩报，上半年继续保持平稳增长态势，投资势头良好
电机的旋转原理、结构、类型、故障排除全解
广和通LTE Cat1模组助力低碳通勤经济，电动微交通正成为上班族的“新团宠”
orcad怎么去浏览DRC检测过后的全部DRC错误
嵌入式Java运行平台数据库引擎的应用研究
未来性能增长需依赖架构上改变因此需要用FPGA进行人工智能硬件加速
锡膏厂家普及锡条一些干货知识?
慧联无限完成数亿元C轮融资，通服资本领投，旷视科技、博将资本、华创资本跟投
最美不过华为荣耀8青春版最快不过华为荣耀v9 两部手机今天发布！
工业清洗用超声波振动棒
彩电业绩整体持续低迷，OLED电视正成为高端市场主流
SKYLAB：WiFi+蓝牙组合模块，了解一下
破解TD-LTE与LTE FDD融合组网的四大难题
英特尔和A股的韭菜们一样，选择割肉了
什么是谐波畸变？谐波通俗点怎么理解？
国内“半导体”3大标杆：“卡脖子”，“中国芯”崛起的希望?
2014智能汽车最值得关注的五大亮点
iphone13系统多大内存
特斯拉线圈的电压有多大_特斯拉线圈的用途
格科微 CMOS 图像传感器产品于中芯国际8吋晶圆出货达10

未来性能增长需依赖架构上改变 因此需要用FPGA进行人工智能硬件加速

未来性能增长需依赖架构上改变因此需要用FPGA进行人工智能硬件加速