从淘宝到天猫应用,从搜索、推荐到广告等场景,对井喷式的数据进行超大规模训练推理的应用,已经在我们身边落地开花。阿里巴巴集团的开源推荐引擎 deeprec (pai-tf) 主要用于稀疏模型训练和预测,可支撑千亿特征、万亿样本的超大规模稀疏训练。
从2019 年开始,英特尔就与阿里巴巴pai团队紧密合作,将英特尔 ai 技术应用到 deeprec 中。特别是英特尔处理器内置的英特尔 dl boost (英特尔 深度学习加速),为 deeprec 实现了四个层面上的优化:框架优化、算子优化、子图优化和模型优化。
四大层面,提升deeprec 训练和推理能力
自英特尔 至强 可扩展处理器问世以来,通过从 avx-256 升级到 avx-512,英特尔将 avx 的能力提高了一倍,极大地提升了深度学习训练和推理能力。第三代英特尔 至强 可扩展处理器之后,英特尔推出支持 bfloat16 (bf16) 数据类型的指令集,也应用到 deeprec 的优化中。
框架优化:deeprec 集成了英特尔开源的跨平台深度学习性能加速库onednn (oneapi deep neural network library),该程序库已经针对大量主流算子实现了性能优化。与搭载 bf16 指令的第三代英特尔 至强 可扩展处理器同时使用,可显著提高模型训练和推理性能。
算子优化:搜索广告推荐模型中存在着大量稀疏算子,调用 avx-512 指令加以优化后,大幅提升了数据读写效率和性能。
子图优化:图优化是 ai 性能优化的主要有效手段之一。在大规模稀疏场景下,deeprec 加入多种子图融合功能,减少大量冗余操作,配合英特尔 avx-512 指令加速,实现了子图性能的明显提升。
模型优化:基于cpu 平台,英特尔在 deeprec 构建了涵盖多个主流模型的独有推荐模型集合,涉及召回、排序、多目标等多种常见场景;并针对硬件平台进行性能优化,相较于其他框架在 cpu 平台上带来跨越式性能提升。
阿里巴巴 pai 团队的测试结果证明:基于 criteo 数据集,使用 bf16 优化后,模型wdl精度或auc 可以逼近fp32,并且bf16模型的训练性能提升达1.4倍,效果显著。
未来,英特尔还会从优化器算子、attention 子图、添加多目标模型等多个角度进一步实施优化,更大程度地发挥 cpu 平台硬件优势、尤其是新硬件特征的效果最大化,从而为稀疏场景打造更高性能的 cpu 解决方案。
当然,英特尔为 deeprec 的优化并不仅限于 cpu 层面。
指纹泄露的风险高 生物信息安全建设需加强
NVIDIA Clara AGX开发套件加速AI医疗设备开发
芯片为什么难造?
时序约束的相关知识(二)
什么是阻燃端子线?
英特尔四大层面,提升DeepRec训练和推理能力
在传输过程的信号要如何描述?
利用电池传感器降低汽车电子装置引发故障的风险
中图仪器-陕西省计量科学研究院精密测量联合实验室揭牌成立
微软团队发布生物医学领域NLP基准
芯片IP机遇大爆发,安谋科技或将成为“领跑者”
电动车设计方案电路原理图分析
常见的电能质量问题①--谐波及其治理效益
利用实时测试虚拟进行动态测试提升网络监控软件
【实操】刚买的示波器就被我拆了!感觉很爽
STM32单片机如何利用SPI接口外扩SRAM芯片
详解转差分电路提升系统动态范围
微软希望对限制人工智能包容性的数据沙漠有所作为
什么是股权质押?哪些LED上市公司在用?
腾博推出定制型网真解决方案,可灵活应用于各种工作环境