NVIDIA Riva可快速开发出GPU加速对话式AI应用

ai 机器人和其他自主机器的开发和部署步伐不断加快。随着新一代应用的出现，需要大幅提升 ai 的计算性能才能处理实时并行运行的多模态 ai 应用。
在零售店、食品配送、医院、仓库、工厂车间和其他商业应用中，人类与机器人的互动日益增加。这些自主机器人必须同时执行 3d 感知、自然语言理解、路径规划、避障、位姿估测等行为。这些行为既需要超高的计算性能，还需要为每个应用训练高度准确的神经模型。
nvidia jetson agx orin 模块是 nvidia jetson 家族的最新成员并且在其中具有最强大的性能。该模块具有异常强大的性能和领先的能效，可以运行所有 nvidia ai 软件堆栈并驱动新一代高要求边缘 ai 应用。
jetson agx orin 和 jetson orin nx 系列
在 2022 年春季 gtc 大会上，我们宣布在今年第四季度推出四款 jetson orin 模块。jetson orin 模块的最高性能达到每秒 275 万亿次运算（tops），可在边缘运行服务器级别的 ai 并且具有端到端应用流水线加速功能。与 jetson xavier 模块相比，jetson orin 为现代 ai 应用带来了更高的性能、能效和推理能力。
jetson agx orin 系列包括 jetson agx orin 64gb 和 jetson agx orin 32gb 模块。
jetson agx orin 64gb 最高算力为 275 tops，功率配置范围 15w 至 60w。
jetson agx orin 32gb 最高算力为 200 tops，功率配置范围 15w 至 40w。
这些模块具有相同的紧凑外型，与 jetson agx xavier 系列模块引脚兼容，性能提升了 8 倍或在相同的价格下提升了 6 倍。
边缘和嵌入式系统的传感器数量、性能和带宽继续增加。jetson agx orin 系列不仅提供用于处理这些传感器的额外算力，而且还增加了 i/o：
多达22条pcie gen4通道
4个10gb以太网
速度更快的csi通道
采用64gb emmc 5.1的双倍存储空间
1.5倍内存带宽
usb 3.2、ufs、mgbe 和 pcie 共享 uphy 通道。关于所支持的uphy配置，请参见设计指南（https://developer.nvidia.com/embedded/downloads#？search=jetson%20agx%20orin%20product%20design%20guide）。
nvidia orin nx 系列包括 jetson orin nx 16gb 和 jetson orin nx 8gb，前者的最大 ai 算力为 100 tops，后者的最大 ai 算力为 70 tops。该系列采用与 jetson xavier nx 类似的设计理念。我们将 nvidia orin 架构封装到最小的 jetson 外形尺寸中（即 260 针sodimm）并且实现了更低的功耗。
您可以在无人机、手持设备等新一代小尺寸产品中实现这一更加强大的性能。jetson orin nx 16gb 的功率配置范围是 10w 至 25w，jetson orin nx 8gb 的功率配置范围是 10w 至 20w。
orin nx 系列的外形与 jetson xavier nx 系列兼容，性能是后者的 5 倍或在相同价格下是后者的 3 倍。orin nx 系列还提供额外的高速 i/o 能力，有多达 7 个 pcie 通道和 3 个 10gbps usb 3.2 接口。您可以使用额外的 pcie 通道连接外部 nvme 来扩展存储空间。
jetson agx xavier 围绕 nvidia xavier 系统级芯片设计，nvidia xavier 是我们为自主机器重新开发的第一个架构。nvidia orin 架构将此类产品提升到一个新的级别，我们在此基础上不断开发出能力、性能与能效更强大的系统级芯片。
jetson orin 模块包含以下内容：
nvidia ampere 架构 gpu，具有多达 2048 个 cuda 核和多达 64 个 tensor 核
多达 12 个 arm a78ae cpu 核
两个新一代深度学习加速器（dla）
计算机视觉加速器
各种其他用于减轻gpu和cpu处理器的负担：
视频编码器
视频解码器
视频图像合成器
图像信号处理器
传感器处理引擎
音频处理引擎
与其他 jetson 模块一样，jetson orin 采用了系统级模块（som）设计。所有处理、内存和电源轨都包含在模块上。所有高速 i/o 均通过一个 699 针的连接器（jetson agx orin 系列）或一个 260 针的 sodimm 连接器（jetson orin nx 系列）提供。这种 som 设计能够让您轻松地将模块集成到您的系统设计中。
jetson agx orin 开发者套件
在 gtc 2022 上，nvidia 还宣布推出 jetson agx orin 开发者套件。该开发套件包含了快速启动和运行所需的一切工具。它包括一个最高性能的 jetson agx orin 模块并运行全球最先进的深度学习软件堆栈。该套件提供创建当前和未来复杂 ai 解决方案所需的灵活性。
凭借紧凑的尺寸、高速接口和大量连接器，该开发者套件非常适合用于制造、物流、零售、服务、农业、智慧城市、医疗、生命科学等领域的高级 ai 机器人和边缘应用原型设计。
jetson agx orin开发者套件包含：
nvidia ampere 架构 gpu 和 12 核 arm cortex-a78ae 64 位 cpu，以及新一代深度学习和视觉加速器
高速 i/o、204.8 gb/s 内存带宽和 32 gb dram，能够为多个并行 ai 应用流水线提供支持
强大的 nvidia ai 软件堆栈并支持 sdk 和软件平台，包括：
nvidia jetpack
nvidia riva
nvidia deepstream
nvidia isaac
nvidia tao
jetson agx orin 开发者套件运行最新的 nvidia jetpack 5.0软件。nvidia jetpack 5.0 支持通过 jetson agx orin 开发者套件模拟 jetson orin nx 和 jetson agx orin 系列模块的性能和时钟频率。您今天就可以开始开发这些模块中的任何一个。
jetson agx orin 开发者套件通过 nvidia 全球授权经销商销售。您可以根据入门指南开始使用该套件。
一流的性能
jetson orin 大幅提升新一代应用的性能。通过使用 jetson agx orin 开发者套件，我们测得了我们高精度、生产级、预训练计算机视觉和对话式 ai 模型性能的几何平均值。测试包括以下基准：
用于人员检测的 nvidia peoplenet
nvidia actionrecognitionnet 2d 和 3d 模型
用于车牌识别的 nvidia lprnet
用于多人位姿估测的 nvidia dashcamnet、bodyposenet
用于语音识别的 citrinet-1024
用于自然语言处理的 bert-base
用于文本-语音转换的 fastpitchhifigane2e
在 nvidia jetpack 5.0 开发者预览版中，jetson agx orin 的性能比 jetson agx xavier 提高了 3.3 倍。随着今后的软件改进，我们预计将实现接近 5 倍的性能提升。自首个支持该软件的版本—— nvidia jetpack 4.1.1 开发者预览版以来，jetson agx xavier 的性能已提高了 1.5 倍。
这些基准测试已在我们的 jetson agx orin 开发者套件上运行。peoplenet 和 dashcamnet 提供在 gpu 和两个 dla 上同时运行密集模型的示例。dla 可以用于卸载 gpu 上的一些 ai 应用，并且这一并行能力使它们能够并行运行。
peoplenet、lprnet、dashcamnet 和 bodyposenet 提供在 jetson 上运行密集 int8 基准测试的示例。actionrecognitionnet 2d 和 3d 以及对话式 ai 基准测试提供密集 fp16 性能的示例。
此外，jetson orin 继续提高边缘 ai 的标杆，在最新 mlperf 行业推理基准测试中进一步巩固 nvidia 的整体领先优势。在此次 mlperf 基准测试中，与 jetson agx xavier 之前的结果相比，jetson agx orin 的性能提高了 5 倍，能效平均提高了 2 倍。
通过jetson软件加快产品上市时间
依靠强大的 nvidia 软件，jetson orin 实现了领先的性能和能效。这些软件被部署在 gpu 加速数据中心、超大规模服务器和高性能 ai 工作站中。
nvidia jetpack 是 jetson 平台的基础 sdk。nvidia jetpack 为硬件加速边缘ai的开发提供了一个完整的开发环境。jetson orin 得到了 nvidia jetpack 5.0 的支持，后者包括：
lts 内核 5.10
基于 ubuntu 20.04 的根文件系统
基于 uefi 的引导程序
带有 cuda 11.4、tensorrt 8.4 和 cudnn 8.3 的最新计算堆栈
nvidia jetpack 5.0 还支持 jetson xavier 模块。
为了让您在 jetson 平台上能够快速开发全面加速的应用，nvidia 为各种不同的用例提供了应用框架：
使用 deepstream 快速开发和部署视觉 ai 应用和服务。deepstream 提供超越推理的硬件加速，它能为端到端 ai 流水线提供硬件加速插件。
nvidia isaac 提供硬件加速 ros 程序包，使 ros 开发者更容易构建高性能机器人解决方案。
omniverse 驱动的 nvidia isaac sim 能够创造高度逼真、达到物理级准确的虚拟环境，该工具可用于开发、测试和管理 ai 机器人。
nvidia riva 为自动语音识别（asr）和文本-语音转换（tts）提供最先进、可以轻松自定义的预训练模型。这些模型使您能够快速开发出 gpu 加速对话式 ai 应用。
为了加快生产级、高精度 ai 模型的开发，nvidia 提供多种工具用于生成训练数据、训练和优化模型以及快速创建可立即部署的 ai 模型。
用于生成合成数据的 nvidia omniverse replicator 能够创建促进模型训练的高质量数据集。您可以使用 omniverse replicator 创建大型、多样化的合成数据集，这些数据集在现实世界中不仅难以创建，有时甚至不可能创建。使用合成数据和真实数据来训练模型可以显著提高模型的准确率。
ngc 上的 nvidia 预训练模型为您提供用于各种用例的高精度优化模型和模型架构。这些预训练模型为生产级模型。通过 nvidia tao（训练-调整-优化）工作流程，您可以使用自己的真实或合成数据训练并进一步自定义这些模型，最终快速构建一个准确、可立即部署的模型。

快速测土配方施肥仪的作用是什么
ipad商标案唯冠科技全面反击：出示自产iPad显示器控诉苹果
低压继电器的返回电压是什么如何计算
NB183——工业级8路串口服务器
2017 ces展会技术前瞻：看看科技巨头们都发布了哪些新产品
NVIDIA Riva可快速开发出GPU加速对话式AI应用
直线模组3D打印冰淇淋亮相花博会
怎样将一个键盘连接到两台计算机
地方部门的网站成为受Flash停用影响的重灾区
基于SG3525的带过载保护开关稳压电源设计
王毅与荷兰谈光刻机出口问题
新一轮的换机潮是由什么引起的
科锐推出业界首项LED模组驱动兼容计划
如何使用蓝牙将Android手机中的照片和视频副本发送到树莓派
欧菲光科技香港公司在印度设立全资子公司
三相继电保护测试仪的常见故障处理方法
传感器在汽车底盘电子控制中的应用
电商TP标杆！兴长信达用人才、技术、经验助力传统企业增收
2022年中国机器人市场达174亿美元
全新的口罩机全套方案来袭，它的方案优点是什么