NVLink的演进

nvlink是nvidia开发的一项用于gpu之间点对点高速互联的技术,其旨在突破pcie互联带宽的限制,实现gpu芯片间低延迟、高带宽的数据互联,使得gpu间更加高效地协同工作。在nvlink技术问世之前(2014年前),gpu之间的互联需要通过pcie switch来实现,如下图所示。gpu发出的信号需要先传递到pcie switch, pcie switch中涉及到数据的处理,cpu会对数据进行分发调度,这些都会引入额外的网络延迟,限制了系统性能。彼时,pcie协议已经发展到gen 3, 单通道的速率为8gb/s, 16通道的总带宽为16gb/s (128gbps,1 byte= 8 bits ),随着gpu芯片性能的不断提升,其互联带宽成为瓶颈。
(图片来自https://en.wikichip.org/wiki/nvidia/nvlink)
2014年,nvlink 1.0发布,并应用在p100芯片上,如下图所示。两颗gpu之间有4条nvlink, 每个link中包含8个lane, 每条lane的速率是20gb/s, 因此整个系统的双向带宽为160gb/s,是pcie3 x16带宽的5倍。
(图片来自https://en.wikichip.org/wiki/nvidia/nvlink)
单个nvlink内部含有16对差分线,对应两个方向各8条lane的信道,如下图所示,差分对的两端为phy,内部包含serdes。
(图片来自https://www.nextplatform.com/2016/05/04/nvlink-takes-gpu-acceleration-next-level/)
基于nvlink 1.0,可以形成4个gpu的平面mesh结构,两两之间形成点对点直连,而8个gpu则对应cube-mesh,进而可以组成dgx-1服务器,这也对应常见的8卡配置,如下图所示,需要注意的是,此时8个gpu并没有形成all-to-all连接。
(图片来自https://developer.nvidia.com/blog/dgx-1-fastest-deep-learning-system/)
2017年,nvidia推出了第二代nvlink技术。两颗gpu v100之间含6条nvlink, 每个link中包含8个lane, 每条lane的速率提升到25gb/s, 整个系统的双向带宽变为300gb/s,带宽是nvlink 1.0的近2倍。与此同时,为了实现8颗gpu之间的all-to-all互联,nvidia推出了nvswitch技术。nvswitch 1.0含有18个port, 每个port的带宽为50gb/s, 整体带宽为900gb/s。每个nvswitch预留了两个port, 用于连接cpu。使用6个nvswitch即可实现8颗gpu v100的all-to-all连接,如下图所示。
(图片来自https://en.wikichip.org/wiki/nvidia/nvswitch)
dgx-2系统则采用两个上图中的板子构建而成,如下图所示,实现了16颗gpu芯片的all-to-all连接。
(图片来自https://en.wikichip.org/wiki/nvidia/nvswitch)
2020年,nvlink 3.0技术诞生,两颗gpu a100芯片之间存在12条nvlink, 每条nvlink含有4条lane, 单条lane的速率为50gb/s, 因此整个系统的双向带宽提升到600gb/s,总带宽相比nvlink 2.0提升了1倍。由于nvlink的数目增加了,nvswitch的port数目也相应增加到36个,每个port的速率为50gb/s。由8颗gpu a100与4个nvswitch组成了dgx a100, 如下图所示。
(图片来自http://www.eventdrive.co.kr/2020/azwell/dgx_a100_azwellplus.pdf)
2022年,nvlink技术升级到第四代,两个gpu h100芯片间通过18条nvlink互联,每条link中含2条lane, 每条lane支持100gb/s pam4的速率,因此双向总带宽提升到900gb/s。nvswitch也升级到第三代,每个nvswitch支持64个port,每个port的速率为50gb/s。dgx h100由8颗h100芯片与4颗nvswitch芯片构成,如下图所示。图中每个nvswitch的另一侧与多个800g osfp光模块相连。以左侧第一个nvswitch为例,其与gpu相连侧的单向总带宽为4tbps (20nvlink*200gbps),与光模块相连侧的总带宽为也为4tbps (5*800gbps),两者大小相等, 是非阻塞(non-blocking)网络。需要注意的是,光模块中的带宽是单向带宽,而在ai芯片中一般习惯使用双向带宽。
(图片来自https://blog.apnic.net/2023/08/10/large-language-models-the-hardware-connection/)
下表整理了每一代nvlink的指标参数。
而pcie每一代的参数如下表所示,
从单条lane的速率来看,nvlink整体比同一时期的pcie的指标高1倍左右,而总带宽的优势更是明显,nvlink是pcie总带宽的5倍左右。一直在超越,从未停止。
nvlink经过近十年的发展,已经成为nvidia gpu芯片中的一个核心技术,是其生态系统中的重要一环,有效解决了gpu芯片之间高带宽、低延迟的数据互联难题,改变了传统的计算架构。但由于该技术是nvidia独有,其它ai芯片公司只能采用pcie或者其它互联协议。与此同时,nvidia正在探索利用光互连实现gpu之间的连接,如下图所示,硅光芯片与gpu共封装在一起,两颗gpu芯片间通过光纤连接。

5种常用的模拟电路设计图
TVS器件选型需要注意哪些问题呢?
“国货之光”星恒锂电池即将亮相第31届上海国际自行车展
华为携手产业各方发布家庭Wi-Fi网络承载超高清视频解决方案
光纤交换机和普通交换机的区别
NVLink的演进
安富利设计服务联手赛灵思和德州仪器
漏电保护器跳闸原因
希微科技发布首款自研Wi-Fi 6双频高性能数传Combo芯片
Tarari T2000单芯片,LSI推出的针对高速联网的应
能灭掉微信的,不会是一开始就对标微信的
四川省资产评估行业党委书记、资产评估事务中心主任颜彦一行莅临易华录考察交流
恢复Unix系统被删除地文件
硅基GaN降成本潜力大 导入车载市场时机已成熟
米禾数字多媒体创新农村法治文化阵地建设
运动耳机什么牌子音质好、音质稳固防水全兼顾的运动耳机来了!
华为云CDN是怎么为你的下载加速保驾护航
“智会 从未止步” 华科创智发布智慧品牌SURWISE及会议平板产品
盛景微成功登陆上交所主板
《大数据白皮书(2022年)》深度解读