近日,ai benchmark发布了最新mobile socs推理测试结果。在这份备受ai圈关注的“战报”中,紫光展锐5g芯片t770取得了86.2k的不俗成绩。
ai benchmark是全球权威ai性能评测平台,由苏黎世联邦理工学院计算机视觉实验室出品。这个实验室由计算机视觉领域著名学者luc van gool, 医疗影像教授ender konukoglu,以及计算机视觉及系统教授fisher yu的研究组组成,是整个欧洲乃至世界最顶尖的cv/ml研究机构之一。
ai benchmark涵盖了26组测试,共计78个测试子项,包括了目标识别、目标分类、人脸识别、光学字符识别、图像超分,图像增强、语义分割、语义增强等ai场景,从cpu、ai加速器对int8和fp16模型的推理速度、准确性、初始化时间等数据全方位衡量平台/设备的ai能力。因此,ai benchmark可以从比较客观的角度评估芯片的ai 性能。
在12个维度的测试里,共计102个测试数据,t770有超过59.8%的数据超过竞品。
具体表现在图片分类、并发场景 (量化模型)、目标检测、文字识别、语义分割、图像超分、图像分割、深度估计、图像增强、视频超分、自动文本生成等场景 。
接下来,让我们从几个关键的测试维度看下t770 ai性能的具体表现:
逐项拆解之mobilenet
首先来看较为经典的mobilenet神经网络维度。这里稍微提一下mobilenet的由来:谷歌在2017年提出了专注于移动端或者嵌入式设备中的轻量级cnn网络,其最大的创新点是提出了深度可分离卷积。mobilenet-v2是对mobilenet-v1的改进,是一种轻量级的神经网络。mobilenet-v2保留了v1版本的深度可分离卷积,增加了线性瓶颈(linear bottleneck)和倒残差(inverted residual),而mobilenet-v3是谷歌基于mobilenet-v2之后的又一项力作,在精度和时间上均有提高。mobilenet-v3做了哪些修改呢?它引入了se结构、修改了尾部结构和channel的数量,做了非线性变换的改变。mobilenet-v3提供了两个版本,一个是mobilenet-v3 large,也就是ai benchmark这次测试用的版本,另一个是mobilenet-v3 small版本,分别对应了对计算和存储要求高与低的版本。
ai-benchmark主要选取了v2和v3 large两个版本进行测试。下图这个数据柱状图表达的是什么意思呢?这里包含了cpu、ai加速器分别对于量化和浮点模型的处理表现,主要从推理速度和准确性两个维度去评估平台/设备的ai能力,时间单位是毫秒。
灰色的柱形图代表竞品,紫色的代表t770。可以看到,在mobilenet-v2维度,t770在cpu量化、cpu浮点、加速器量化的处理上基本是优于竞品的。加速器浮点上略有差距,在mobilenet-v3 large维度,t770在cpu量化、cpu浮点、加速器浮点的处理上是优于竞品的,加速器量化上略有差距,两者数据各有千秋,从mobilenet神经网络整体维度,t770优于竞品。
逐项拆解之inception-v3
inception-v3 架构的主要思想是 factorized convolutions (分解卷积) 和 aggressive regularization (激进的正则化)。可以看到,在精度基本一致的情况下,在cpu浮点、加速器量化这两个关键维度上,t770运行inception-v3的运行速度更快,加速器浮点模型数据的运行速度上略有差距,但精度略优于竞品,如下图所示:
逐项拆解之efficientnet
efficientnet是谷歌研究人员在一篇 icml 2019 论文《efficientnet: rethinking model scaling for convolutional neural networks》中提出的一种新型模型缩放方法。可以看到,t770运行efficientnet的表现与竞品相当,在cpu浮点、加速器量化、加速器浮点模型数据的运行速度上均有优势。
刚才提到的mobilenet、inception-v3、efficientnet网络结构常用于图像分类、目标检测、语义分割等技术开发中。这些神经网络结构可应用的常见场景有手机相册中的相册分类,手势识别等,工业上可用于快递分拣、头盔检测、头盔识别等场景,在医学领域会用于皮肤真菌识别等应用。当然这些神经网络所能支撑的场景,不限于刚刚介绍到的,可利用这些ai能力开发出更多的基于对物体/事物的分类场景。
t770在这些神经网络结构上的不俗表现表明:t770有更全面、更强大的能力去支撑这些场景的开发。
逐项拆解之inception-v3 parallel
接下来再看inception-v3 parallel (nn-int8),你肯定会想,怎么又来一个inception-v3,刚才不是show过了?是重复了吗?搞错了吗?当然没有!这里介绍的是inception-v3 parallel的能力,即同时处理多个inception-v3,对应的是平台/设备对于ai并发处理的能力,怎么去理解这个并发处理呢?举个栗子吧,哦,今天忘记带栗子了,不好意思(╯▽╰)。
简单来讲,就是应用程序同时下发多个任务处理,再简单点讲就是,同时在做两件事情或多件事情,比如图片分类和手势识别同时进行。还不明白?再简单点,就好比人在吃饭的同时刷抖音短视频。
ok,我们来看下具体数据,下图显示的是ai加速器对1/2/4/8个量化模型同时处理的能力,可以明显看到,t770在ai多任务处理能力上占有明显优势。
逐项拆解之yolo-v4 tiny
我们再看yolo-v4 tiny结构,它是yolo-v4的精简版,属于轻量化模型,参数只有600万,相当于原来的十分之一,这使检测速度有了很大提升,非常有利于在端侧进行部署,在智能安防领域中已有大量应用,比如车辆识别、人员识别、路径预测和跟踪、行为分析、安全帽识别等。
先看下具体数据,如下图,除加速器量化模型部分略有不足之外,其他均有优势,如cpu量化、浮点,加速器浮点等。
逐项拆解之dped – resnet
再看一下t770在dped - resnet处理维度的表现,解释一下,dped是dslr photo enhancement dataset,而dslr指的是digital single lens reflex camera,即数码单反相机。讲到这一点,不得不提到一篇论文《dslr-quality photos on mobile devices with deep convolutional networks》,这是一篇发布于2017年关于图像增强的神经网络论文,大概成果就是将手机照片作为输入,将dslr相机拍出的照片作为target,通过网络使其学习到一个映射函数,目的是让手机拍出单反相机照片的效果。
基于dped,我们可以将老旧或低质量的照片转化为高质量的照片,而且转化效果很好,可用于照片美化等应用场景。如下图,可以看到t770在对dped - resnet处理的错误率一致的情况下,错误率都很低,处理速度上有明显优势。
逐项拆解之lstm
接下来,我们再看一下t770在长短期记忆网络(long-short term memory,lstm)方面的性能。由于独特的设计结构,lstm适合处理和预测时间序列中间隔和延迟非常长的重要事件。lstm的表现通常比时间递归神经网络及隐马尔科夫模型(hmm)更好,比如用在不分段连续手写识别上。
2009年,用lstm构建的人工神经网络模型赢得icdar手写识别比赛冠军。lstm还普遍应用在自主语音识别,2013年,运用timit自然演讲数据库实现了17.7%错误率纪录。作为非线性模型,lstm可作为复杂的非线性单元,用于构造更大型深度神经网络。
下图可以看到,t770在对lstm处理的错误率一致的情况下,处理速度上有着明显优势。
逐项拆解之u-net
u-net是比较早的使用全卷积网络进行语义分割的算法之一,因网络形状酷似u而得名。图像语义分割(semantic segmentation)是图像处理和机器视觉技术中,关于图像理解的重要一环,也是 ai 领域中一个重要的分支。语义分割对图像中每一个像素点进行分类,确定每个点的类别(如属于背景、人或车等),从而进行区域划分。目前,语义分割已经被广泛应用于自动驾驶、无人机落点判定等场景中。u-net在医学领域也得到了应用,比如医学图像解析,也就是从一副医疗图像中,识别出特定的人体部位,比方说“前列腺”、“肝脏”等等。
下图可以看到,t770和竞品对u-net处理的错误率都极低,而t770在拥有极低错误率的同时,处理速度明显占优。
好了,数据对比分析先讲这么多,大家如果对t770在其他ai场景下的性能数据感兴趣,可前往ai benchmark官网自行查看。
以上可以看到,t770有着不俗的ai性能,可以助力用户在相册分类、物体分类、智能美图、背景虚化、渲染、语音助手、智能家居、车牌识别,人脸识别、视频超分辨率应用场景中的落地实施,并且在满足常见cv/nlp应用场景下,可以同时满足实时、高并发的ai场景需求,如车牌识别、人脸识别等。
看罢t770的ai性能精彩展现,你是否会有疑问,t770是如何做到在ai上大放异彩的呢?下面我们来简单介绍下。
t770拥有多个可用于ai加速的设备,当然,有时候你拥有的资源越多,并不是一件好事,因为对资源的识别、管理和调度,会是一件极其困难的事情。所以,如何使t770上多个ai加速设备协同合作,并发挥出最大效能成为我们技术研发最主要的挑战。
大家都知道三个和尚挑水喝的故事:一个和尚挑水喝,两个和尚抬水喝,三个和尚没水喝。
故事很简单,道理也很简单,借这个故事,这里想表达的是三个核心问题:
一、任务来了,谁能干?
二、任务来了,谁来干更合适?
三、安排好活了,干活的是否积极?
为了解决上述问题,紫光展锐开发了两大核心技术:
1)smart schedule :采用智能算法,精准识别每个ai任务最适合在哪个加速器里进行处理,然后进行分配,使其随才器使;
2)device boost:采用智能调节算法,根据推理任务大小,智能调节加速器负载,使其张弛有度。
得益于紫光展锐开发的这两大核心技术,t770在ai性能上大放异彩,ai多变场景下,可以助力用户实现丰富的ai场景化落地。
而且,紫光展锐将持续针对多种ai场景进行优化,届时,t770的ai性能将得到更大提升,创新不止,敬请期待!
注:本文测试数据来源于ai benchmark官网发布
微软人工智能首席科学家邓力博士:驱动大数据人工智能多种应用的三类深度学习模式
两台电脑实现互传文件:多种方法可选择
IT隔离电源系统在医院安全用电中的应用
四个技术领域看便携技术展:把握移动终端市场下一引爆点
雨量传感器在农业气象站中的应用,它的原理是什么
t770芯片怎么样 AI Benchmark跑分看展锐5G芯片T770性能特性
汽车消费降级像是一个伪命题
富士康印度工厂已正常恢复运营
智能交通预警系统4G广播音柱
ADI石油测井高温技术及方案
ARM芯片将是智能家居设备的主要选择之一
中国IC独角兽企业如何崛起?各家独角兽对未来怎么看?
蓄电池过放电保护电路
可视化需求大但场景杂,一妙招帮你轻松搞定
光电二极管的类型
智能手机亚洲市场:OPPO/vivo/小米名列前三,三星被甩第四
荧光灯、LED灯、白炽灯中那种最适合作台灯?更适合阅读?
量子计算机未来可解决大规模计算的科学难题
联想在印度的智能手机业务进展如何
万宝龙正式推出品牌首款无线智能耳机