Mali GPU编程特性及二维浮点矩阵运算并行优化详解

基于mali-t604嵌入式gpu的二维浮点矩阵运算并行优化
arm cortex-a15系列处理器是当前最新的嵌入式arm soc，该系列处理器首次集成了mali-t600系列的移动端gpu，该系列gpu支持opengl以及opencl等计算框架，可以有效加速通用计算，而目前对其应用方法和实际优化效果的研究很少。本文基于以三星的exynos5250处理器为核心的arndale board嵌入式开发平台，对集成于处理器上的mali-t604嵌入式gpu的gpgpu（general-purpose computation on gpu）技术进行研究并对不同运算规模的浮点矩阵乘法进行并行加速优化，提供实际测试结果。
gpgpu技术早年主要在超级计算机平台进行高性能计算，而近年该技术逐渐被引入嵌入式领域。但在过去的移动gpu平台上没有专门针对通用计算的软件框架和编程接口，软件设计者难以对于数据的同步和计算的并行进行控制，所以移动gpu在通用计算领域一直难以应用。本文基于exynos5250 soc平台详述mali gpu的硬件特性和将其应用于通用计算的编程的方法，最后将二维浮点矩阵乘法并行化作为优化实例，验证mali gpu的并行能力，为计划使用嵌入式gpu的gpgpu技术进行优化工作的研究人员和应用开发者提供技术参考和借鉴。
1.mali t604 gpu的硬件结构和编程特性
mali是由arm研发设计的移动显示芯片组（gpus）系列，不仅能够在移动端提供强大的图像渲染能力，同时在近期对通用计算进行了良好的软硬件支支持。
1.1 mali t604 gpu的组成结构
mali-t604是mali系列中首款使用统一渲染架构midgard的移动gpu，mali-t604 gpu包含4个着色器核心，采用amba 4 ace-lite总线接口，该总线以cache coherent interconnect技术为特色，在多个处理器之间提供完全cache一致性，通过arm的一致性和互连技术，计算任务在异构系统中进行共享处理时，可以轻松跨越cpu、gpu和其他可用计算资源，更高效地访问数据。图1展示了mali-t604 gpu的基本框架。如图2所示，cortex-a15 cpu核心以及mali gpu核心物理上共享了片外的ram存储器并保持了l2cache的一致性。
图1 mali-t604基本硬件框图
图2 exynos5250处理器框图
mali-t604 gpu在硬件层面优化了对任务管理和事件依赖的处理，并将这部分功能完全集成在其硬件的任务管理单元之中，可将计算任务从cpu卸载到gpu，并在活动的着色器核心之间实现无缝负载平衡。
1.2 mali gpu的并行化线程结构特征
mali gpu进行通用计算的技术核心是以多核多线程的思想将密集的计算任务进行拆解，将大量的计算线程分配于众多计算核心中，gpu可以同时处理成百上千的线程，大量晶体管用于alu.gpu适合做高密度数据的并行运算，只有在运算的并行粒度足够大的时候才能发挥出强大的并行运算能力。图3展示了cpu和 mali gpu之间工作调配的过程。
图3 cortex-a15 cpu和mali gpu之间的工作调配
mali gpu中每个计算线程会占用着色器核心的一部分资源（存储器和alu等），每个线程占用资源的多少影响了同时并行处理的活动线程的数量。对mali gpu，每一个线程都有自己的程序计数器，这意味着mali gpu和桌面gpu平台不同，程序分支的发散不是一个影响效率的重要的问题。每个mali-t604 gpu的着色器核心最多可以同时容纳256个线程，mali gpu在进行通用计算时需要大量的线程进行切换才能保证得到计算效率上的收益，对于mali-t604而言，这个最少的总工作项数量是4096.如果分配于单个着色器核心上的线程数目不足128，很可能带来并行效率的下降，这时需要拆分工作为不同的步骤，简化每个步骤的线程复杂度，让单个着色器核心并行容纳的线程数量足够多以保证并行度。
2.mali gpu的并行化计算模型构建
mali-t600系列的gpu对opencl 1.1 full profile标准进行了良好的支持，opencl是真正意义上的跨平台异构并行框架，能够真正挖掘出mali gpu的并行计算特性。
2.1 mali gpu在opencl框架下的并行任务抽象及线程规划
opencl是一个由编程语言规范，应用程序接口、库函数和运行时系统组成的跨平台异构并行计算框架，mali-t604 gpu在opencl下的抽象层次如下面的图4所示：
图4 opencl针对mali-t604的抽象层次
opencl的并行基于smt（同时多线程）的思想，由用户指定自定义数目的线程，并根据线程的标识符设计计算线程与数据关联的映射法则，smt架构主要用于隐蔽访存的延时。opencl框架下，cpu主机端程序由opencl的api编写，实现计算平台的初始化，存储器的分配和交互的控制，并决定分配的计算线程的维度和每一维的数量。设备端的内核程序由opencl c语言编写，mali gpu会根据内核对象创建主机端请求数量的线程实例，每个线程的运算工作都由图4中一个对应的pe进行处理，线程的工作逻辑决定了线程标识号和数据的关联关系。多个线程被组织为工作组的形式，每一个工作组固定分配到一个cu上进行处理，同一个工作组中的线程会在对应的cu上由mali gpu的任务管理单元进行快速的切换和调度，保证一个cu上的pe最大限度保持忙碌。
2.2 mali gpu多核环境下的存储器空间映像方法
如图4所示，mali gpu和cortex a15 cpu所共用的ram在逻辑上被opencl框架切割成了四种不同的类型，mali-t600系列的gpu使用统一存储器模型，四种类型的存储器都映射到片外ram上，cortex-a15 cpu和mali-t604 gpu共享物理ram，相对桌面gpu平台而言，在mali平台上将数据从全局存储器拷贝到局部或者私有存储器并不能使访存性能得到提升，但相对地也不用像桌面gpu一样进行从主存到显存的数据拷贝。mali gpu有三种访问ram的方式，由传入clcreatebuffer函数中的不同参数决定，其示意图如下：
图5 opencl框架下mali gpu对存储器的不同访问方式
cortex-a15 cpu和mali-t604 gpu使用不同的虚拟地址空间，在主机端由malloc函数分配的缓存，mali gpu无法访问。mali gpu可以访问clcreatebuffer函数分配出的缓存，cpu借助opencl中的map映射操作也可实现对这类缓存的读写，图5中的方式2需要主机端的缓存进行数据拷贝来初始化，方式3和方式2类似，但只在opencl的内核函数首次使用该缓存时才进行数据拷贝，在cpu端进行map操作时 gpu还会将数据拷贝回主机端的缓存，对于mali gpu而言，多余的数据拷贝操作会降低访存效率。图5中的方式1是arm官方建议的访存方式，cpu和gpu共享一块物理缓存，高速实现数据交互。
2.3 mali gpu的向量处理特性
mali-t604 gpu内部有128位宽度的向量寄存器，使用opencl c中的内建向量类型可以让数据自动以simd的形式在mali gpu的alu中进行并行计算，mali gpu中将数据以16个字节对齐可以使得数据的长度和高速缓存适配，加快数据存取速度，mali-t600系列gpu中加载一个128位的向量和加载一个单字节数据花费的时间是一样的。将数据以128位进行对齐，能够最大限度发挥mali-t604 gpu的访存和运算效率。
3.基于mali-t604 gpu的快速浮点矩阵乘法并行化实现
矩阵乘法运算在路径方案求解、线性方程组求解、图像处理等领域一直有着广泛应用，普通的迭代式串行算法的时间复杂度为o（n3），对于大型的矩阵乘法，特别是浮点类型的矩阵乘法，计算量非常惊人，传统的算法基于cpu进行设计，cpu并不能提供大型的并行度和强大的浮点计算能力，对于大型浮点类型矩阵乘法的处理力不从心。
ab两个矩阵的乘法的结果矩阵中的每个数据均依赖于a中的一行和b中的一列的点积结果，每个计算结果没有依赖和相关，显然是高度可数据并行的计算问题，很适合使用gpu做并行处理，使用gpu上的多个线程可以并行进行矩阵a和b中不同行和列的点积。
实际进行实验时，以n*n的两个浮点矩阵a和b进行乘法，得出n*n的浮点结果矩阵matrixresult，利用mali gpu进行并行化的时候，总共分配n*n个线程，以二维方式进行排布，标识号为（i，j）的线程提取出矩阵matrixa的第i行和矩阵matrixb的第j列，利用opencl中长度为128位的float4向量类型快速实现两个一维向量的点积，再将该点积结果存储到matrixresult［i］［j］位置。主机端分配线程的代码段如下：
笔者将clenqueuendrangekernel函数中工作组大小参数设置为null，由mali gpu硬件自动确定最佳的工作组大小。由于内核中每次会连续读取4个浮点数值凑成float4类型的数据，所以对于矩阵的宽度不是4的倍数的情况需要进行特殊处理，可在主机端首先将输入矩阵a修改为n行n/4+4列，将矩阵b修改为n/4+4行n列，多出的矩阵部分均以0补齐，这样既不影响计算结果，也不会影响线程的分配方案，实现并行方案的内核函数如下所示：
本文采用arndale board开发板作为测试平台，软件平台采用linaro机构为arndale board定制的基于ubuntu的嵌入式linux操作系统，其内核版本为3.10.37，实验时使用arm-linux-gnueabihf工具链对程序进行编译。不同规模的二维浮点矩阵乘法运算在arm cortex-a15 cpu上的串行方案和mali-t604 gpu上的并行方案的测试结果如面的表1所示，为不失一般性，测试时输入矩阵内容为随机值，每种不同矩阵大小的测试项进行10次测试，将测试值的平均值作为测试结果。
上表仅列出了输入量较大时的测试结果，笔者实际测试时，发现输入数据量较小的时候，并行方案没有串行方案的效率高，因为计算过程大部分都消耗在数据的传输上，由于计算量小，gpu端的计算瞬间完成，没有办法将mali gpu访存的延迟掩盖，所以此时访存速度较快的cpu端的串行方案反而效率更高。
当计算量逐步增加的时候，mali gpu的并行能力逐渐体现出其优势，加速比有显著提升，当计算量大到一定程度的时候，加速比趋于稳定，因为这时mali gpu上有大量的线程切换，不仅隐蔽了访存的延迟，也使得mali gpu上的计算单元满载，其计算效率已达到硬件能够承受的极限，此时mali gpu可以提接近40倍的供惊人的加速比。
实际测试时，笔者使用top指令观察矩阵进程的cpu占用量，串行方案的cpu占用量在98%左右，而基于mali gpu的并行方案对cpu几乎没有占用量，说明并行方案不仅可以提升计算效率，还降低了cpu的负担，大大提升了系统实时性。实验的实际测试结果和gpu 异构运算特点吻合。
4.结语
本文针对mali-t604 gpu论述了基于opencl的linux平台上进行通用计算并行优化的方法，论述了mali-t604 gpu的硬件特点，并基于opencl设计了二维矩阵乘法的并行方案，在mali-t604上获得了惊人的加速比，结果表明mali gpu对于庞大输入量的计算密集型高度可数据并行化通用计算问题有显著的加速能力，且并行优化结果正确可靠。

IP地址的网路ID不同类型分类
基于STM32F407的FreeRTOS学习笔记(11)
云安全和传统安全有什么区别？
SPI总线协议和I2C总线协议
华为iMaster NCEIP网络实时数字地图实现一张地图管理全网
Mali GPU编程特性及二维浮点矩阵运算并行优化详解
人脸识别门禁系统在智慧社区的应用
AM02018026MD-2H功率放大器模块
山东科力光电LS型激光雷达产品介绍
珠海冠宇申请科创板IPO获深交所受理
MOS管集成电路的十条使用操作准则
Gartner发布Linux盛衰图 2-5年后成主流
文心一言什么时候推出百度官宣文心一言3月16日见
RF功率半导体2018年突破15亿美元，GaN推动市场上扬
LED驱动电源的分类及特性简介
搅局者小米电视研发内幕曝光创维死磕
ESD要如何去进行保护工作
防止单相接地时发生谐振过电压的措施盘点
IDC：2017年平板电脑逆势成长
新款手持式热像仪FLIR E8 Pro隆重上市