NVIDIA Triton助力腾讯PCG加速在线推理

案例简介
本案例中通过nvidia t4 gpu,通过ronda平台调用triton以及tensorrt, 整体提升开发和推理效能, 帮助腾讯pcg的多个服务整体效能提升2倍,吞吐量最大提升6倍,同时降低了40%的延时。本案例主要应用到 nvidia t4 gpu、tensorrt和triton。
本案例主要应用到 nvidia t4 gpu、tensorrt和triton。
客户简介及应用背景
腾讯平台与内容事业群(简称 腾讯pcg)负责公司互联网平台和内容文化生态融合发展,整合qq、qq空间等社交平台,和应用宝、浏览器等流量平台,以及新闻资讯、视频、体育、直播、动漫、影业等内容业务,推动ip跨平台、多形态发展,为更多用户创造海量的优质数字内容体验。
腾讯pcg机器学习平台部旨在构建和持续优化符合pcg技术中台战略的机器学习平台和系统,提升pcg机器学习技术应用效率和价值。建设业务领先的模型训练系统和算法框架;提供涵盖数据标注、模型训练、评测、上线的全流程平台服务,实现高效率迭代;在内容理解和处理领域,输出业界领先的元能力和智能策略库。机器学习平台部正服务于pcg所有业务产品。
客户挑战
业务繁多,场景复杂
业务开发语言包括c++/python
模型格式繁多,包括onnx、pytorch、tensorflow、tensorrt等
模型预处理涉及图片下载等网络io
多模型融合流程比教复杂,涉及循环调用
支持异构推理
模型推理结果异常时,难以方便地调试定位问题
需要与公司内现有协议/框架/平台进行融合
应用方案
基于以上挑战,腾讯pcg选择了采用nvidia 的triton推理服务器,以解决新场景下模型推理引擎面临的挑战,在提升用户研效的同时,大幅降低了服务成本。
nvidia triton 是一款开源软件,对于所有推理模式都可以简化模型在任一框架中以及任何 gpu 或 cpu 上的运行方式,从而在生产环境中使用 ai。triton 支持多模型ensemble,以及 tensorflow、pytorch、onnx 等多种深度学习模型框架,可以很好的支持多模型联合推理的场景,构建起视频、图片、语音、文本整个推理服务过程,大大降低多个模型服务的开发和维护成本。
基于c++ 的基础架构、dynamic-batch、以及对 tensorrt 的支持,同时配合 t4 的 gpu,将整体推理服务的吞吐能力最大提升 6 倍,延迟最大降低 40%,既满足了业务的低延时需求,成本也降低了20%-66%。
通过将triton编译为动态链接库,可以方便地链入公司内部框架,对接公司的平台治理体系。符合c语言规范的api也极大降低了用户的接入成本。
借助python backend和custom backend,用户可以自由选择使用c++/python语言进行二次开发。
triton的tracing能力可以方便地捕捉执行过程中的数据流状态。结合metrics 和 perf analysis等组件,可以快速定位开发调试,甚至是线上问题,对于开发和定位问题的效率有很大提升。
nvidia dali 是 gpu 加速的数据增强和图像加载库。dali backend可以用于替换掉原来的图片解码、resize等操作。fil backend也可以替代python xgboost模型推理,进一步提升服务端推理性能。
方案效果及影响
借助nvidia triton 推理框架,配合 dali/fil/python 等backend,以及 tensorrt,整体推理服务的吞吐能力最大提升 6 倍,延迟最大降低 40%。帮助腾讯pcg各业务场景中,以更低的成本构建了高性能的推理服务,同时更低的延迟降低了整条系统链路的响应时间,优化了用户体验。


应用模糊自适应整定PID控制改善逆变电源控制系统的稳定性能
借助软件,视频稳定功能变得越来越好、越来越智能
提升驾驶体验的四个技术趋势
固态存储的新机遇
华米AMAZFIT智能手表青春版高清图赏
NVIDIA Triton助力腾讯PCG加速在线推理
LTC2978数字电源监视器的应用
村田电子推出新款白色LED 应用氧化镓做衬底
KIOXIA铠侠已经继承东芝存储器的衣钵,并将其继续发扬光大
synchronized 的几种错误用法
信号传达到电磁波的几种基本信号调试方式
图像采集存储系统选择应考虑的几大要素
雨量监测站 自动雨量监测站 水位雨量一体化监测
基于ATmega162的智能仪器设计
深谈车载通信系统创新平台
二氧化碳传感器在水产养殖中的应用
英特尔宋继强:坚持半导体底层技术创新,激发算力千倍级提升
在使用触摸屏时操作上有什么技巧吗
手持式蓄电池内导测试仪介绍
关于AGM Systems推出的无人机测绘解决方案浅析