莱迪思FPGA在网络边缘计算AI开发方案

fpga 向来是高大上的形象,即便在人工智能火热的今天,围绕 fpga 讨论的焦点也集中在云端的加速,与之相提并论的,更多是以高性能计算见长的 gpu、cpu、dsp。
但是,有家公司,却专注在“网络边缘端”,将产品布局在适于低功耗运行的低密度 fpga 上,其全新的毫瓦级功耗 fpga 解决方案 ——latticesenai ,为机器学习推理在大众市场物联网应用中实现快速部署创造机遇, 且听莱迪思半导体亚太区资深事业发展经理陈英仁娓娓道来。
莱迪思半导体亚太区资深事业发展经理陈英仁
快速兴起的网络边缘计算
提及 ai 或智能计算,我们更多会想到“云端的加速”。但并非所有应用都将在云端运行。莱迪思《加速实现网络边缘低功耗人工智能应用》白皮书中表明,另一轮从集中式到分布式的系统架构转变的征兆已经显而易见了,无论到来与否,有一点确信无疑,那就是低延迟要求、不断加剧的隐私问题和通信带宽限制,将驱动网络边缘对智能化的需求。陈英仁以智能音响为例,集合了语音控制、摄像头检测功能的智能音响,可以为生活带来更多的便利性,但也正由于存在摄像头、麦克风,隐私暴露就成为大家担心的问题。如果这时在终端加入数据处理和分析功能,就可以很好地对隐私进行保护。此外,终端的很多应用是需要低延迟的,甚至有时在没有网络的情况下,也需要保证在线下进行及时的反馈,这时也需要终端数据处理的加入。
这样的需求有多大?gartner 分析表示:“目前企业产品的数据约有 10% 都在传统的集中式数据中心或云端以外的地方处理,到 2022年,这一数据将会达到 50% 。”
正如在消费物联网领域所见,随着传感器数量和种类的激增,需要部署更多的计算资源用于实时数据处理,能够实现这种本地传感器数据处理的毫瓦级功耗、小体积、低成本、灵活支持各类传统接口以及性能/精度可调节的半导体解决方案就显得至关重要。
低功耗对物联网边缘应用的重要性不言而喻。陈英仁介绍,不同的应用场景、不同种类的传感器,动辄成千上万的传感器部署,24小时无休,如果每两三天充电或更换一次电池,增加了太多的维护成本,因而智能终端应用的半导体功耗需要达到几瓦甚至毫瓦级。
成本也是一个关键要素,随着物联网的发展,越来越多的地方都需要用到传感器,因而任何一个解决方案都必须能与其他批量生产的网络边缘解决方案一决高下。
电路板面积小至几平方毫米,也更有利于方便集成到边缘终端应用中。
考虑到边缘应用终端的多样性,处理芯片需要具备最大化的设计灵活性,能够提供广泛的 i/o 接口以支持不同的传感器。
最后设计人员还需要能通过自定义量化平衡精度、功耗和成本的解决方案,从而实现更有效地边缘计算。
应运而生 sensai
顾名思义,sensai 为优化 ai 应用而生,那么我们就有必要先了解 ai的概念。1956 年夏,人工智能先驱们的梦想是借由新兴计算机构建具有人类智力特征的复杂机器。这就是所谓的“通用人工智能(general ai)”的概念——拥有人类的所有感觉(甚至可能更多)、所有理智,像人类一样思考的神奇机器。而机器学习是用来实现人工智能的一种方式。“通常,机器学习要求两种类型的计算工作量——训练和推理” 陈英仁介绍,训练系统通过现有的数据习得新能力,例如人脸检测功能通过采集和分析成千上万张图片来学习识别人脸,这种高度密集的计算,往往需要使用高性能硬件如 gpu或高性能 fpga 等进行快速处理。而推理环节主要过识别图案和执行任务将系统能力用于处理新数据,边运行边学习,随着时间的推移变得愈加智能。一般分为两个场景:在云端数据中心响应用户需求和在终端智能设备响应用户需求。在云端数据中心,各家公有云服务厂商都纷纷部署了高性能云计算服务器。而在而在终端设备,由于前面所述说隐私性、低延迟的需求,很多应用都会在终端部署以提升智能度, 设计人员可以使用经过优化的、低功耗、低密度的fpga,满足日益严苛的性能和功耗要求。
对此,莱迪思推出基于 ice40 ultraplus 和 ecp5 fpga 系列的新型全套开发生态系统——lattice senai,旨在实现机器学习推理在大众物联网应用中实现快速部署。lattice senai 提供经过优化的解决方案,具有超低功耗(低于 1mw-1w)、封装尺寸小(5.5-100 mm2)、接口灵活(mipi® csi-2、lvds、gige 等)和批量价格低(约 1-10 美元)等优势。
之所以推出 sensai , 陈英仁解释道,fpga 天生适合做计算,但更多时候,计算是客户的核心技术,甚至有部分客户还没有这项技术,那么如何能够帮助他们快速地利用 fpga 的低功耗、低成本、小体积实现计算,就成了 fpga 推广最大难题。因此,sensai就是为了让客户能够在传感器的桥接和数据聚合中,增加更多智能以实现低延时、低功耗的计算,即客户手中有数据和样本,就可以在 fpga 中做计算,尤其在网络编程里。
sensai 以模块化硬件平台为基础,包括基于低功耗 ice40 ultraplus fpga的移动开发平台(mdp) 
和基于 ecp5 fpga 器件的视频接口平台( vip ), mdp 包括一系列板载传感器,如图像传感器、麦克风、罗盘、压力传感器和陀螺仪等,可用于毫瓦级功耗的应用。vip 的功耗稍高但总体低于 1 w,可实现 mipi csi-2、嵌入式displayport (edp)、hdmi、gige vision和usb3在内的接口互连。
为配合硬件平台,莱迪思提供了新的神经网络加速器 ip 核。该软 ip 包括针对ice40 ultraplus fpga 优化后的 bnn(二值神经网络)1加速器,支持 1 bit 权重量化和 1 bit 激活量化,可以实现低功耗的侦测和推理。还包括针对ecp5 fpga 优化的 cnn (卷积神经网络)加速器,该核可支持不同权重和激活的量化(1bit、8bit和16bit),实现功耗和精度的平衡,设置的位宽越高,准确度通常会越高。
为了更方便的应用上述 ip ,莱迪思提供从 caffe/tensorflow 到 fpga 的神经网络编译器工具、lattice radiant 
和 lattice diamond 设计软件。通过开源的深度学习框架 caffe/tensorflow 实现网络训练,然后经过莱迪思独立开发的神经网络编译器将经过训练的网络模型映射成定点数值表示以匹配其 fpga ,可在没有 rtl 设计经验的情况下,将网络应用移植到其 fpga 中。此外,神经网络编译器能够快速分析、模拟和编译 cnn/bnn, 在sensai ip 核上实现。这样补足了 fpga 在计算应用中的高门槛。
陈英仁介绍,为了更好地简化边缘应用的 ai 开发,莱迪思也提供了专门针对超低功耗优化的参考设计及演示。比如低功耗人脸检测、关键词检测、对象计数、面部跟踪以及速度标志牌检测等。
基于莱迪思 mdp 移动开发平台实现的人脸检测 demo,其功耗约为 800-850 微瓦,搭配低功耗影响传感器,可实现精准的、毫瓦以下人脸侦测,如智能门铃、智能锁、智能化妆镜、超市结账等
此外,莱迪思也构建了经认证的合作伙伴生态系统,旨在联合国内外不同领域的 ai 应用合作伙伴(在某些领域有专长的服务商),为智能家居、智慧城市、智能工厂等领域的客户快速、有效地提供定制化的解决方案。
“sensai神经网络加速器和神经网络编译器是我们最核心的部分,” 陈英仁表示,因为莱迪思为客户实现简洁的低功耗推理。对已经在使用 fpga 进行桥接和连接技术的客户,可以有更多的选择优化设计。对于即将在边缘应用终端加入智能的新用户,有sensai 和天生的接口特性的加持,莱迪思 fpga 也是一个性能、功耗、成本、开发难度相当有竞争力的选择。
未来可期
谈到 ai 的应用, “其实大家还在思考,怎么样应用 ai 让生活更简单,” sensai 简化了算法的开发门槛,让设计人员更多地去思考如何更好地实现应用,陈英仁举了几个例子,尖叫声检测、枪声检测、玻璃打碎声音检测、智能穿衣镜、面部跟踪等等,似乎更多的应用在等着人们放飞想象力得以实现。但是,可以预见到的一个趋势是,随着用户寻求更高级别的智能,对于靠近 iot 数据源的低功耗推理的需求将与日俱增。

国内薄片飞秒激光器领域研究获重大进展
如何制作能够分类120种小狗的图像分类器
CITE 2018:人工智能渗透电子产业的方方面面
电阻负载的单相桥式全控整流电路
高速PCB设计的九大设计原则解析
莱迪思FPGA在网络边缘计算AI开发方案
传感技术成各领域技术发展桥梁
如何让智能设备拥有更高级的语言?
太阳如何影响我们星球的预测
OPPOR11怎么样?OPPO R11评测:“谁是OPPO拍照KING”OPPO R11约你看两大男神PK
车规级芯片价格暴涨 晶圆代工厂商成本增加
华为玩抢购但缺货,mate9pro预存现金才拿到货
九代酷睿桌面CPU订单延期价格逐步走高
引入 FinFET晶体后的多重图案拆分布局和布线
华为云数据库\-GaussDB for MySQL数据库
智能可穿戴医疗健康产业深度解析(附方案厂商)
美光科技公布2022财年第二季度业绩
LED电平表驱动集成电路基本应用
锐尔威视科技最新发布的USB摄像头采用OV7725芯片增加了功能
如何选择室内定位基站和标签,需先考虑这五个问题