NVIDIA“全堆栈计算”策略应对AI加速计算时代挑战

在神经网络和机器学习技术的推动下,特别是2016年谷歌的alphago在多次与人类顶尖围棋棋手的对战中大获全胜后,给全世界做了一次人工智能(ai)科普,人工智能的新一波发展浪潮开始了。
“计算技术正在蓬勃发展,推动这枚火箭的引擎是加速计算,而燃料则是 ai。” nvidia 创始人兼首席执行官黄仁勋在2022秋季gtc 大会主题演讲中表示。也就是说ai加速计算时代已经悄然来临。
近10年来,数据量和数据处理方式都发生了很大的改变。大量的数据不再是人类事件生成,而是各种类型的传感器和设备所生成,数据量正在呈指数级在往上增长。比如说,智能手表会收集用户运动健身和健康状况相关的详细数据,自动驾驶汽车在行驶过程中会不断收集周围环境的信息,据统计一辆汽车一小时就可以生成5tb的数据,未来随着自动驾驶汽车数量的持续增长,将会产生庞大的数据量。
随着数据量的爆炸式增长,人们开始使用ai来分析数据,因为ai不仅能够分辨出语音和视频模式,强化学习技术,还能够从大量的可能性中识别出最佳结果,从而为使用者提供最有价值的分析。而nvidia在ai加速计算领域这几年一路狂奔,取得亮眼成绩。
谈到原因,黄仁勋认为这与nvidia这些年来持续推行“全堆栈计算”策略是分不开的。“为了在加速计算领域取得成功,我们不再只是做别人曾经做的事情,而是把它整合成一家纵向一体化的公司。”在他看来,“在ai加速计算领域,如果不垂直整合,就不会成功。因为没有人会专门为你写操作系统,在云端、超级计算和企业中,也没有人会开发你的分布式操作系统,而没有完整的堆栈,用户就无法使用你的平台,所以你别无选择,只能自己动手。”
黄仁勋认为,客户要购买的不是nvidia的芯片,而是nvidia的计算堆栈。他同时强调,nvidia的全堆栈,主要包括四大平台,即nvidia rtx、nvidia hpc、nvidia ai和nvidia omniverse。
nvidia rtx:推出全新架构rtx 40系列gpu nvidia rtx是nvidia在siggraph 2018上推出的全新gpu架构,通过两个全新处理器来扩展可编程着色器。rt core 用于加速实时光线追踪,tensor core 用于处理矩阵运算,这是深度学习的核心。
在2022 秋季 gtc 大会上,nvidia宣布推出其第3代rtx架构------ada lovelace,这代 rtx 以数学家 ada lovelace 的名字命名,她被公认为世界上第一位计算机程序员。
图:nvidia racer rtx 是利用 geforce rtx 40 系列 gpu 和 nvidia dlss 3 创建未来游戏内容的例子
同时,nvidia还推出了基于ada lovelace架构的rtx 40系列gpu,该系列gpu采用了tsmc的4n工艺,可集成760亿个晶体管和超过16000个cuda核心。其主要技术创新包括:
流式多处理器具有高达83 tflops 的着色器能力,吞吐量超过上一代产品2倍。  第三代rt core的有效光线追踪计算能力达到191 tflops,是上一代产品2.8倍。  第四代tensor core具有高达1.32 petaflops 的 fp8 张量处理性能,超过上一代使用 fp8 加速性能的5倍。 着色器执行重排序(ser)通过即时重新安排着色器负载来提高执行效率,从而更好地利用 gpu 资源。作为与 cpu 的乱序执行一样的重大创新,ser 为光线追踪带来最高可达3倍的性能提升,整体游戏性能提升可高达25%。 ada光流加速器带来2倍的性能提升,使 dlss 3 能够预测场景中的运动,使神经网络能够在保持图像质量的同时提高帧率。 架构上的改进,与 tsmc 4n 定制工艺技术紧密结合,实现了高达2倍的性能功耗比飞跃。 双nvidia编码器(nvenc)将输出时间至多缩短一半,并支持 av1。obs、blackmagic design davinci resolve、discord 以及更多的公司都已在采用 nvenc av1 编码器。
在产品方面,nvidia推出了首款基于ada lovelace架构的工作站显卡nvidia rtx 6000,该工作站显卡具有142个第三代rt core、568个第四代tensor core、18,176个cuda核心,以及48gb显存,可为工程师、设计师和科学家提供助力,满足在虚拟世界中构建世界所需的苛刻的内容创建、渲染、人工智能和模拟工作负载的需求。
图:nvidia rtx 6000具体参数(来源:nvidia官网)
据nvidia介绍,与其前代产品相比,全新的rtx 6000可在企业环境中提供2~4倍的性能提升,包括最多2倍的光追性能、ai训练性能、及单精度浮点性能等。nvidia还为其配备了48gb支持ecc的gddr6显存,以支持最大体积的3d模型渲染或ai计算。此外,该rtx 6000采用了pcie 4×16接口,整卡最大功耗为300w。
值得注意的是,全新的rtx 6000的开始出货时间应该是今年12月。
nvidia hpc:具有ai支持的全堆栈科学计算 nvidia hpc是nvidia的科学计算堆栈,在ai的支持下,其gpu、cpu、dpu和软件将共同帮助数据中心扩大规模,为量子计算、分子动力学、流体动力学、气候研究等科学研究做出支持。
nvidia hpc包括了holoscan(边缘计算和人工智能平台可捕获和分析来自医疗设备和科学仪器的数据)、modulus、cuqantum(量子计算)等数据中心工作负载和技术。
具体来看,针对hpc的holoscan sdk可以帮助科学家和研究人员加速科学仪器应用的相关发现。该sdk引入了用于创建管道流边缘的高性能框架,允许用户用c++,python和jax开发应用程序。而且后续还会推出更多的功能。
nvidia modulus是用于开发基于物理学的机器学习神经网络模型的平台。它允许用户以治理偏微分方程或pdes的形式融合物理学的力量。用数据建立高保真的参数化代用模型,具有近乎实时的延时。它可以支持处理ai驱动的物理问题以及复杂的非线性多物理系统设计数字孪生模型等工作。而且,它在提供相同准确性的同时,比单独的模拟快了110万倍。
在量子计算方面,已经有25个国家级的量子计划在运作了,过去12个月有超过2100篇量子计算相关的文章得到了发布。而且,目前已经出现了超过250家量子计算初创企业。nvidia也在2022 秋季 gtc 大会上推出了由优化库和工具优化构建的sdk------cuquantum和混合量子经典应用开发平台qoda。
其中,cuquantum可用于量子电路模拟开发,借助cuquantum,一台32个节点的dgx pod,可以模拟一台40量子位的量子计算机。目前,cuquantum得到广泛运用,包括aws、google、ibm、oracle以及很多初创公司和超算中心都在采用该sdk,比如oracle正在为oci云构建量子模拟虚拟机;aws将cuquantum集成到其braket量子计算服务中,实现了900倍的加速和3.5倍的成本缩减。
而qoda是一个开放的,与处理器无关的量子平台,适用于混合量子加速计算,它为研究人员提供了量子加速计算的编程模型。
nvidia ai:本质上是现代ai的操作系统 在黄仁勋看来,nvidia ai本质上是现代ai的操作系统,它从数据采集、数据处理,发展到深度学习,再到如今的的图表分析和图表学习系统,再到推论工具triton,不断在向前演化。“所以这个端到端平台是nvidia人工智能的一部分。如果你在任何地方做机器学习或任何类型的人工智能模型,你都可以使用nvidia ai。”他表示。
据他介绍,nvidia通过550个sdk和ai模型为约3000个应用提供加速。在过去12个月中对超过100个sdk进行了更新,并推出了25个新sdk,且每次更新都会提高计算机组合的性能和吞吐量。
下面看看几个比较典型的nvidia ai应用:
forecast net:以前所未有的需求和准确性预测极端天气。forecast net在不到两秒钟的时间内就能生成一个星期的预报,比欧洲中程天气预报中心的综合预报系统(一种最先进的数值天气预报模型)快了几个数量级。而且它的准确度相当或更好。
morpheus:它是ai网络安全框架,旨在使整个安全数据推断更容易、更快、更强大。它由许多模块组成,可以以各种方式连接,允许开发人员创建整个潜能。在输入方面,morpheus与数据无关。它提供了以下预先训练好的模型,以简化实施并加快它们的模型性能。
1.数字指纹识别——识别凭证使用行为的变化,将其归类为人类与机器的互动和机器与机器的互动;
2.钓鱼网站检测——分析整个原始电子邮件,将其分类为挂垃圾邮件或钓鱼网站;
3.泄露的敏感数据分类——发现泄露的凭证钥匙、密码、信用卡号码、银行账户号码等的分类。
4.异常行为分析检测——以检测像加密恶意软件这样的东西;
5.基于图形神经网络的欺诈检测——帮助你用以前所需的一小部分标记数据获得高准确率的结果。
triton推理服务器:triton 是一款开源的推理服务软件,可助力团队从任何框架、本地存储或从任何基于 gpu 或 cpu 的基础架构、云、数据中心或边缘的 google cloud 平台或 aws s3 中部署经过训练的 ai 模型。据悉,triton的下载量已超过300万次,比去年增加了300%。triton可以在所有主要公有云中使用,并可集成到领先的mlops平台中。目前已受到超过35000家公司的青睐。
cuopt:它是建立在rapids之上的最新库之一。cuopt是一个ai物流软件应用程序,可以实现近乎实时的路由优化。与最先进的cpu解决方案相比,它的速度提高了100倍以上,在300个humberger基准问题中的190个问题上的准确度创下了世界纪录,并且可以扩展到数万个地点,cuopt极大地方便了物流和运筹学开发人员。
nvidia omniverse:构建和运行元宇宙应用的平台 omniverse是一个实时的大型3d数据库,基于usd构建的网络,连接3d世界。同时它也是是一个计算平台,该平台适用于从产品设计和造型,到工程策划、制造、营销和运营的整个产品生命周期。
在2022秋季gtc 大会上,nvidia宣布了omniverse的重大更新:
支持 ada lovelace gpu,在光线追踪和大型场景性能方面实现巨大飞跃; 基于 gan 和扩散模型的新型神经渲染工具; omnigraph 是一个图形执行引擎,可通过程序化的方式控制行为、动作和行动; omniverse physics 的重大更新,用来处理复杂的多连接部件对象的运动情况; 全新的 cloud xr,支持在 vr 中实现 ada 强大的光线追踪功能; 首个用于合成数据生成和数字孪生模拟的 simready 素材库; replicator 是备受青睐的 omniverse 应用之一,用来生成合成数据,从而训练自动驾驶汽车、机器人和各种计算机视觉模型。 新的 omniverse jt 连接器 则是一款大型应用,siemens 发明了 jt,这是产品生命周期管理的行业标准语言,也是 nx、creo、catia 和 inventor 等 cad 系统的互操作格式,jt 连接器使得工业和制造业可以运用 omniverse。目前,omniverse已拥有150个连接器,这些都是全球市值 100 万亿美元的产业所使用的工具和平台。这些连接器将 omniverse 的应用范围拓展到各种公司,覆盖零售、交通、电信、制造、媒体和娱乐、消费品和奢侈品,以及供应链和物流等大型行业领域。  
其实,omniverse 是一个新的计算平台,需要采用新的计算系统,omniverse 计算平台由三部分构成:rtx 计算机(供创作者、设计师和工程师使用)、ovx 服务器(用来托管与 nucleus 数据库的连接并运行虚拟世界模拟),以及第三部分:nvidia gdn(进入 omniverse 的门户)。
通过 geforce now,nvidia构建了一个全球图形交付网络(即 gdn),该网络覆盖 100 个地区,为之提供响应灵敏的超快 rtx 图形内容交付网络 (cdn)。通过 nvidia rtx pc、云端的 nvidia gpu 和 nvidia gdn,nvidia打造了一个覆盖全球的 omniverse 计算平台。
在今年9月20日,nvidia宣布推出第二代nvidia ovx,该系统基于ada lovelace gpu 架构的 nvidia® l40 gpu,能够为构建复杂的工业数字孪生提供强大的算力和性能支持。
l40 gpu 包含第三代 rt core 和第四代 tensor core,能够为在 ovx 系统上运行的 omniverse 工作负载提供强大功能,包括加速的光线追踪和路径追踪材质渲染、物理级精确的模拟以及逼真的 3d 合成数据生成。l40 也会在主要 oem 厂商的 nvidia 认证系统服务器中提供,以驱动数据中心的 rtx 工作负载。
具体规格方面,每个ovx 服务器节点带有8个nvidia l40 gpu和3个connectx-7 网卡,可提供100/200/400g网络速率。如果 omniverse工作负载对性能和规模提出更高要求,这些服务器可以通过 nvidia spectrum™-3以太网平台部署在nvidia ovx pod和 superpod配置上。
黄仁勋认为,omniverse是用来构建和运行元宇宙应用的平台,无论是数字世界和现实世界在何处教会,omniverse都能发挥作用。此外,omniverse还有一项重要的用途就是机器人开发,而机器人将会是ai的新一波浪潮。
结语 此外, nvidia在2022秋季gtc 大会上还带来了新的边缘ai计算平台igx平台,igx平台由nvidia igx orin超级计算机驱动,能更简便的为制造、物流、医疗等安全敏感行业带来了安全的工作环境;史诗级的超级芯片drive thor(雷神),这款soc将于2025年上市,其ai性能高达2000tops;以及jetson orin nano,它可运行nvidia isaac机器人堆栈,并具有ros 2 gpu加速框架,速度比之前大受欢迎的jetson nano快80倍等产品更新。

魅族Note9高清图赏
江西环院90余名师生学习参观鑫金晖-PCB自动化设备引领者
分析师:ASML 2024年处境将比同行更具挑战
骨传导耳机哪个牌子好、推荐几款好用的骨传导耳机
MAX11359A 16位智能数据采集系统(DAS)
NVIDIA“全堆栈计算”策略应对AI加速计算时代挑战
RFID系统简介:优点、应用与发展前景
低压电器的常见故障及维修
关于窃取业务数据的几种常见网络攻击类型介绍
Abele通过区块链创新和应用,引领金融行业进一步走向区块链和数字时代
车规芯片的设计之路,从开发工具开始
基于虚拟仪器技术和数据采集卡实现气象监测系统的设计
音质好的陶瓷耳机推荐 2021年好音质、好耳机推荐
真无线蓝牙耳机哪个好?好评率最高的十大蓝牙耳机品牌
台湾微软与人工智能实验室共同将AI导入基因研究
华为nova 5 Pro和华为nova 5i在苏宁易购已正式开售
魅族Pro7、魅族MX7即将发布:让路新旗舰,魅族pro6 plus降至冰点价!购买还是你等待?
PyTorch教程-16.7自然语言推理:微调 BERT
详谈物联网传感器的基本原理和工作流程
关于VTI7064 64Mbit串行SRAM的接口说明