图像预处理库 CV-CUDA 开源了，打破预处理瓶颈，提升推理吞吐量 20 多倍

本文转载自机器之心
当 cpu 图像预处理成为视觉任务的瓶颈，最新开源的 cv-cuda，将为图像预处理算子提速百倍。
在如今信息化时代中，图像或者说视觉内容早已成为日常生活中承载信息最主要的载体，深度学习模型凭借着对视觉内容强大的理解能力，能对其进行各种处理与优化。
然而在以往的视觉模型开发与应用中，我们更关注模型本身的优化，提升其速度与效果。相反，对于图像的预处理与后处理阶段，很少认真思考如何去优化它们。所以，当模型计算效率越来越高，反观图像的预处理与后处理，没想到它们竟成了整个图像任务的瓶颈。
为了解决这样的瓶颈，nvidia 携手字节跳动机器学习团队开源众多图像预处理算子库 cv-cuda，它们能高效地运行在 gpu 上，算子速度能达到 opencv（运行在 cpu）的百倍左右。如果我们使用 cv-cuda 作为后端替换 opencv 和 torchvision，整个推理的吞吐量能达到原来的二十多倍。此外，不仅是速度的提升，同时在效果上 cv-cuda 在计算精度上已经对齐了 opencv，因此训练推理能无缝衔接，大大降低工程师的工作量。
以图像背景模糊算法为例，将 cv-cuda 替换 opencv 作为图像预/后处理的后端，整个推理过程吞吐量能加 20 多倍。
如果小伙伴们想试试更快、更好用的视觉预处理库，可以试试这一开源工具。
开源地址：https://github.com/cvcuda/cv-cuda
图像预/后处理已成为 cv 瓶颈
很多涉及到工程与产品的算法工程师都知道，虽然我们常常只讨论模型结构和训练任务这类「前沿研究」，但实际要做成一个可靠的产品，中间会遇到很多工程问题，反而模型训练是最轻松的一环了。
图像预处理就是这样的工程难题，我们也许在实验或者训练中只是简单地调用一些 api 对图像进行几何变换、滤波、色彩变换等等，很可能并不是特别在意。但是当我们重新思考整个推理流程时会发现，图像预处理已经成为了性能瓶颈，尤其是对于预处理过程复杂的视觉任务。
这样的性能瓶颈，主要体现在 cpu 上。一般而言，对于常规的图像处理流程，我们都会先在 cpu 上进行预处理，再放到 gpu 运行模型，最后又会回到 cpu，并可能需要做一些后处理。
以图像背景模糊算法为例，常规的图像处理流程中预后处理主要在 cpu 完成，占据整体 90% 的工作负载，其已经成为该任务的瓶颈。
因此对于视频应用，或者 3d 图像建模等复杂场景，因为图像帧的数量或者图像信息足够大，预处理过程足够复杂，并且延迟要求足够低，优化预/后处理算子就已经迫在眉睫了。一个更好地做法，当然是替换掉 opencv，使用更快的解决方案。
为什么 opencv 仍不够好？
在 cv 中，应用最广泛的图像处理库当然就是长久维护的 opencv 了，它拥有非常广泛的图像处理操作，基本能满足各种视觉任务的预/后处理所需。但是随着图像任务负载的加大，它的速度已经有点慢慢跟不上了，因为 opencv 绝大多数图像操作都是 cpu 实现，缺少 gpu 实现，或者 gpu 实现本来就存在一些问题。
在 nvidia 与字节跳动算法同学的研发经验中，他们发现 opencv 中那些少数有 gpu 实现的算子存在三大问题：
部分算子的 cpu 和 gpu 结果精度无法对齐；
部分算子 gpu 性能比 cpu 性能还弱；
同时存在各种 cpu 算子与各种 gpu 算子，当处理流程需要同时使用两种，就额外增加了内存与显存中的空间申请与数据迁移/数据拷贝
比如说第一个问题结果精度无法对齐，nvidia 与字节跳动算法同学会发现，当我们在训练时 opencv 某个算子使用了 cpu，但是推理阶段考虑到性能问题，换而使用 opencv 对应的 gpu 算子，也许 cpu 和 gpu 结果精度无法对齐，导致整个推理过程出现精度上的异常。当出现这样的问题，要么换回 cpu 实现，要么需要费很多精力才有可能重新对齐精度，是个不好处理的难题。
既然 opencv 仍不够好，可能有读者会问，那 torchvision 呢？它其实会面临和 opencv 一样的问题，除此之外，工程师部署模型为了效率更可能使用 c++ 实现推理过程，因此将没办法使用 torchvision 而需要转向 opencv 这样的 c++ 视觉库，这不就带来了另一个难题：对齐 torchvision 与 opencv 的精度。
总的来说，目前视觉任务在 cpu 上的预/后处理已经成为了瓶颈，然而当前 opencv 之类的传统工具也没办法很好地处理。因此，将操作迁移到 gpu 上，完全基于 cuda 实现的高效图像处理算子库 cv-cuda，就成为了新的解决方案。
完全在 gpu 上进行预处理与后处理，将大大降低图像处理部分的 cpu 瓶颈。
gpu 图像处理加速库：cv-cuda
作为基于 cuda 的预/后处理算子库，算法工程师可能最期待的是三点：足够快、足够通用、足够易用。nvidia 和字节跳动的机器学习团队联合开发的 cv-cuda 正好能满足这三点，利用 gpu 并行计算能力提升算子速度，对齐 opencv 操作结果足够通用，对接 c++/python 接口足够易用。
cv-cuda 的速度
cv-cuda 的快，首先体现在高效的算子实现，毕竟是 nvidia 写的，cuda 并行计算代码肯定经过大量的优化的。其次是它支持批量操作，这就能充分利用 gpu 设备的计算能力，相比 cpu 上一张张图像串行执行，批量操作肯定是要快很多的。最后，还得益于 cv-cuda 适配的 volta、turing、ampere 等 gpu 架构，在各 gpu 的 cuda kernel 层面进行了性能上的高度优化，从而获得最好的效果。也就是说，用的 gpu 卡越好，其加速能力越夸张。
正如前文的背景模糊吞吐量加速比图，如果采用 cv-cuda 替代 opencv 和 torchvision 的前后处理后，整个推理流程的吞吐率提升 20 多倍。其中预处理对图像做 resize、padding、image2tensor 等操作，后处理对预测结果做的 tensor2mask、crop、resize、denoise 等操作。
在同一个计算节点上（2x intel xeon platinum 8168 cpus，1x nvidia a100 gpu），以 30fps 的帧率处理 1080p 视频，采用不同 cv 库所能支持的最大的并行流数。测试采用了 4 个进程，每个进程 batchsize 为 64。
对于单个算子的性能，nvidia 和字节跳动的小伙伴也做了性能测试，很多算子在 gpu 上的吞吐量能达到 cpu 的百倍。
图片大小为 480*360，cpu 选择为 intel(r) core(tm) i9-7900x，batchsize 大小为 1，进程数为 1
尽管预/后处理算子很多都不是单纯的矩阵乘法等运算，为了达到上述高效的性能，cv-cuda 其实做了很多算子层面的优化。例如采用大量的 kernel 融合策略，减少了 kernel launch 和 global memory 的访问时间；优化访存以提升数据读写效率；所有算子均采用异步处理的方式，以减少同步等待的耗时等等。
cv-cuda 的通用与灵活
运算结果的稳定，对于实际的工程可太重要了，就比如常见的 resize 操作，opencv、opencv-gpu 以及 torchvision 的实现方式都不一样，那从训练到部署，就会多很多工作量以对齐结果。
cv-cuda 在设计之初，就考虑到当前图像处理库中，很多工程师习惯使用 opencv 的 cpu 版本，因此在设计算子时，不管是函数参数还是图像处理结果上，尽可能对齐 opencv cpu 版本的算子。因此从 opencv 迁移到 cv-cuda，只需要少量改动就能获得一致的运算结果，模型也就不必要重新训练。
此外，cv-cuda 是从算子层面设计的，因此不论模型的预/后处理流程是什么样的，其都能自由组合，具有很高的灵活性。
字节跳动机器学习团队表示，在企业内部训练的模型多，需要的预处理逻辑也多种多样有许多定制的预处理逻辑需求。cv-cuda 的灵活性能保证每个 op 都支持 stream 对象和显存对象（buffer 和 tensor 类，内部存储了显存指针）的传入，从而能更加灵活地配置相应的 gpu 资源。每个 op 设计开发时，既兼顾了通用性，也能按需提供定制化接口，能够覆盖图片类预处理的各种需求。
cv-cuda 的易用
可能很多工程师会想着，cv-cuda 涉及到底层 cuda 算子，那用起来应该比较费劲？但其实不然，即使不依赖更上层的 api，cv-cuda 本身底层也会提供 image 等结构体，提供 allocator 类，这样在 c++ 上调起来也不麻烦。此外，往更上层，cv-cuda 提供了 pytorch、opencv 和 pillow 的数据转化接口，工程师能快速地以之前熟悉的方式进行算子替换与调用。
此外，因为 cv-cuda 同时拥有 c++ 接口与 python 接口，它能同时用于训练与服务部署场景，在训练时用 python 接口跟快速地验证模型能力，在部署时利用 c++ 接口进行更高效地预测。cv-cuda 免于繁琐的预处理结果对齐过程，提高了整体流程的效率。
cv-cuda 进行 resize 的 c++ 接口
实战，cv-cuda 怎么用
如果我们在训练过程中使用 cv-cuda 的 python 接口，那其实使用起来就会很简单，只需要简单几步就能将原本在 cpu 上的预处理操作都迁移到 gpu 上。
以图片分类为例，基本上我们在预处理阶段需要将图片解码为张量，并进行裁切以符合模型输入大小，裁切完后还要将像素值转化为浮点数据类型并做归一化，之后传到深度学习模型就能进行前向传播了。下面我们将从一些简单的代码块，体验一下 cv-cuda 是如何对图片进行预处理，如何与 pytorch 进行交互。
常规图像识别的预处理流程，使用 cv-cuda 将会把预处理过程与模型计算都统一放在 gpu 上运行。
如下在使用 torchvision 的 api 加载图片到 gpu 之后，torch tensor 类型能直接通过 as_tensor 转化为 cv-cuda 对象 nvcvinputtensor，这样就能直接调用 cv-cuda 预处理操作的 api，在 gpu 中完成对图像的各种变换。
如下几行代码将借助 cv-cuda 在 gpu 中完成图像识别的预处理过程：裁剪图像并对像素进行归一化。其中 resize() 将图像张量转化为模型的输入张量尺寸；convertto() 将像素值转化为单精度浮点值；normalize() 将归一化像素值，以令取值范围更适合模型进行训练。
cv-cuda 各种预处理操作的使用与 opencv 或 torchvision 中的不会有太大区别，只不过简单调个方法，其背后就已经在 gpu 上完成运算了。
现在借助借助 cv-cuda 的各种 api，图像分类任务的预处理已经都做完了，其能高效地在 gpu 上完成并行计算，并很方便地融合到 pytorch 这类主流深度学习框架的建模流程中。剩下的，只需要将 cv-cuda 对象 nvcvpreprocessedtensor 转化为 torch tensor 类型就能馈送到模型了，这一步同样很简单，转换只需一行代码：
通过这个简单的例子，很容易发现 cv-cuda 确实很容易就嵌入到正常的模型训练逻辑中。如果读者希望了解更多的使用细节，还是可以查阅前文 cv-cuda 的开源地址。
cv-cuda 对实际业务的提升
cv-cuda 实际上已经经过了实际业务上的检验。在视觉任务，尤其是图像有比较复杂的预处理过程的任务，利用 gpu 庞大的算力进行预处理，能有效提神模型训练与推理的效率。cv-cuda 目前在抖音集团内部的多个线上线下场景得到了应用，比如搜索多模态，图片分类等。
字节跳动机器学习团队表示，cv-cuda 在内部的使用能显著提升训练与推理的性能。例如在训练方面，字节跳动一个视频相关的多模态任务，其预处理部分既有多帧视频的解码，也有很多的数据增强，导致这部分逻辑很复杂。复杂的预处理逻辑导致 cpu 多核性能在训练时仍然跟不上，因此采用 cv-cuda 将所有 cpu 上的预处理逻辑迁移到 gpu，整体训练速度上获得了 90% 的加速。注意这可是整体训练速度上的提升，而不只是预处理部分的提速。
在字节跳动 ocr 与视频多模态任务上，通过使用 cv-cuda，整体训练速度能提升 1 到 2 倍（注意：是模型整体训练速度的提升）
在推理过程也一样，字节跳动机器学习团队表示，在一个搜索多模态任务中使用 cv-cuda 后，整体的上线吞吐量相比于用 cpu 做预处理时有了 2 倍多的提升。值得注意的是，这里的 cpu 基线结果本来就经过多核高度优化，并且该任务涉及到的预处理逻辑较简单，但使用 cv-cuda 之后加速效果依然非常明显。
速度上足够高效以打破视觉任务中的预处理瓶颈，再加上使用也简单灵活，cv-cuda 已经证明了在实际应用场景中能很大程度地提升模型推理与训练效果，所以要是读者们的视觉任务同样受限于预处理效率，那就试试最新开源的 cv-cuda 吧。
原文标题：图像预处理库 cv-cuda 开源了，打破预处理瓶颈，提升推理吞吐量 20 多倍
文章出处：【微信公众号：nvidia英伟达】欢迎添加关注！文章转载请注明出处。

R&S ZVL3-75多功能仪器可实现高精度S参数测试
Navatics推出了一款号称水下最稳定的无人机——MITO潜拍4K无人机
电子元器件加工技术如何塑造未来
PCB设计：关于光学定位点保护环的案例解析
关于中国大陆存储产业的发展分析
图像预处理库 CV-CUDA 开源了，打破预处理瓶颈，提升推理吞吐量 20 多倍
分享15kW户用光伏系统典型设计全过程的介绍
微波射频仿真软件综合和应用评析
电容传感器D200HD的特性介绍
小米CC9 Pro新年最高降价300元最低售价2599元起
德州仪器（TI）放大器技术创新发展最新趋势的观点
特斯拉线圈的原理及制作方法
为推销5G套餐，运营商主动降低5G套餐门槛
是德科技与中国移动研究院在5G关键技术领域展开深入合作
如何判断一款SSD存储器是好还是坏
中国科学家发明智能石墨烯人工喉：可解决聋哑人说话问题
芯科科技：推出具有成本效益的原型车
ARM与x86的较量未来谁更适合云计算时代？
DCTCP与DCUDP的登录数据包和心跳数据包与服务器端是如何交互的？
中国联通与中国电信签署了5G网络共建共享框架合作协议书