Imagination 与 MulticoreWare 合作将 GPU 技术用于全新的双目视觉方案

imagination 近日宣布了与multicoreware.inc公司的合作,后者是多核和异构计算环境软件解决方案和开发工具的领先供应商。multicoreware公司在展锐t710开发板上实现双目视觉算法stereobm的opencl版本的移植和优化,移植后的算法在gpu平台上性能提升明显。展锐t710开发板内部集成了imagination gm9446显示芯片,主频为800mhz,采用12nm工艺制造,支持opencl4.0, opencl1.2和opengl3.0版本,最高性能能够达到128 fp32 flops/clock 和256 fp16 flops/clock。cpu支持八核处理器,主频2.0ghz, 内部集成ai神经网络处理器npu,综合算力达4.2tops。为了进一步提升开发板的算力,multicoreware团队在双目视觉stereobm的opencl实现中,使用了开发板的imagination gm9446系列gpu作为运算核心,相对于传统cpu的双目视觉算法stereo版本得到了极高的加速比。这组算法的设计充分使用了imagination gm9446的特点,采用大窗口尺寸和小分辨率图像620x188,local memory存储优化等方式提高了程序的性能。
算法经过调整不同的参数,窗口winsize大小为21,n_disp为64的时候,性能达到最佳。通常kernel越复杂,寄存器占用的空间就越大,最大工作组的大小就越小,有时候发挥不出来并行流水线的最大数量,从而影响性能。
multicoreware公司团队在对kernel代码优化内部的寄存器使用量,根据gm9446内部结构,设置合理的global全局工作组大小256x图片高度,local工作大小为256,从而最大程度发挥gpu并行流水线的并发量,一般情况下,第一个维度的工作组大小应该是wave大小的倍数(例如32),这样可以充分利用wave资源,multicoreware团队根据多年优化经验,手动调整工作组大小以满足这个条件来保证性能有所提升。此外内存读取也是影响kernel运行效率的一方面,在opencl中一般有全局global内存,本地local内存,常量constant和private四种形式组成,multicoreware公司团队在将stereo算法重新调整内存布局,将主机内存使用零拷贝技术与gpu内存直接填充,另外将内核kernel多次内存访问的数据,从global内存转存到local内存中,虽然增加了一次转存数据的时间,但是对于对此存取数据整体时间是缩减的,从降低io时间的角度整体提高了kernel内核的运行效率,性能也有所改善。运行10次后进行效率对比,gpu比cpu计算最高提速80倍左右,平均提速50倍左右。
  cpu  (展锐t710  2.0ghz)
cpu (unisoc t710, 2.0ghz)
gpu 
(imagination   gm9446)
倍数
multiple
1 31.935 ms 0.76 ms 41.9
2 56.17 ms 0.699 ms 80.3
3 54.22 ms 0.72 ms 75.3
4 51.67 ms 0.77 ms 67
5 31.72 ms 0.74 ms 42.8
6 27.12 ms 0.73 ms 37.1
7 33.35 ms 0.77 ms 43.3
8 50.12 ms 0.75 ms 66.8
9 31.29 ms 0.71 ms 44
10 29.73 ms 0.72 ms 41.29
未来imagination和multicoreware两家公司将致力于共同促进opencl在行业中的广泛采用,鼓励opencl广泛应用于异构计算、apu、以及cpu和gpu独立计算的领域中,实现计算资源利用率最大化、高效率处理数据传输。

iPhone8上市多少钱?史上最贵iphone8售价完全确认,简直不要再贵你会买吗?
中国需大力推进嵌入式芯片的自主化生产
一场疫情加速了“AI测温”的需求量
空调的制热效果不好,其原因是什么
联发科技发布了移动平台,为高端智能手机打造高速稳定的5G连接
Imagination 与 MulticoreWare 合作将 GPU 技术用于全新的双目视觉方案
毫米波释放5G全部潜能
什么是土壤水势仪,它的作用是什么
NVIDIA Riva 2.0的功能亮点有哪些
智能外呼机器人能否提高人工电销的效率
空客与中航材签署了一笔涉及到300架飞机的采购协议
红米4X:699最新高端黑,骁龙八核芯片,更有不俗的外在美!你还有什么不满意的?
如何生成精确的调频载波和线性调频脉冲雷达测试信号?(二)
电阻的类型及选择
日本东芝证实苹果7存储分32/128/256GB三个版本 但是中国首发无望
首批32层三维NAND闪存芯片年内将量产,填补我国主流存储器领域空白
物联网与智慧物流不能不说的那些事
杰华特联合英诺赛科推出120W氮化镓快充方案,打造大功率高端
传苹果拟自主开发射频元件
5G时代下的物联网,它的发展前景将是如何