详解PCIe和NVLink两种互联技术

计算机网络通信中两个重要的衡量指标是带宽和延迟,ai 网络也是如此。在向百亿级及以上规模的发展过程中,影响ai计算集群性能的关键并不只在于单个芯片的处理速度,每个芯片之间的通信速度也尤为重要。
目前gpu卡间互联的主要协议是pcie和nvlink,服务器间互联则是rdma和以太网。 之前我们有谈过ib和roce( ib和roce,谁更适合ai数据中心网络? ),本文将主要介绍pcie和nvlink两种互联技术。
01pcie :高带宽扩展总线
总线是服务器主板上不同硬件互相进行数据通信的管道,可以简单理解为生活中的各种交通道路。总线对硬件间数据传输速度起着决定性的作用,目前最流行的总线协议为pcie(pci-express),最早由intel于2001年提出。
pcle主要用于连接cpu与各类高速外围设备,如gpu、ssd、网卡、显卡等。与传统的pci总线相比,pcie采用点对点连接方式,具有更高的性能和可扩展性。伴随着ai、自动驾驶、ar/vr等应用快速发展,计算要求愈来愈高,处理器i/o带宽的需求每三年实现翻番,pcie也大致按照3年一代的速度更新演进,每一代升级几乎能够实现传输速率的翻倍,并有着良好的向后兼容性。
2003 年pcie 1.0 正式发布,可支持每通道传输速率为 250mb/s,总传输速率为 2.5 gt/s。
2007 年推出pcie 2.0 规范。在 pcie 1.0 的基础上将总传输速率提高了一倍,达到 5 gt/s,每通道传输速率从 250 mb/s 上升至 500 mb/s。
2022 年 pcie 6.0 规范正式发布,总带宽提高至 64 gt/s。
2022年6月,pci-sig联盟宣布pcie 7.0版规范,单条通道(x1)单向可实现128gt/s传输速率,计划于2025年推出最终版本。
pcie 1.0 到 6.0 不同 lane 下的带宽变化
retimer
在pcie标准的迭代过程中,随着通信速率的逐步提高,信号质量也会受到影响,为应对愈演愈烈的信号衰减问题,pcie从4.0时期开始引入信号调理芯片:
pcie retimer
retimer是一种数模信号混合芯片,功能主要为重新生成信号。retimer 先恢复抖动的时钟信号,再生成新信号并重新发送,从而有效解决信号衰减问题,为服务器、存储设备及硬件加速器等应用场景提供可扩展的高性能pcie互联解决方案。
pcie redriver
redriver是一种信号放大器,通过发射端的驱动器和接收端的滤波器提升信号强度,从而实现对信号损耗的补偿。
从工作原理来看,redriver通过放大信号来恢复数据,而retimer 则重新建立一个传输信号的新副本。与 redriver 相比,retimer 恢复信号的效果更好,能够实现比redriver更优的降低信道损耗效果,但由于增加了数据处理过程,时延有所增加。
pcie switch
pcie 的链路通信是一种端对端的数据传输,每一条pcie链路两端只能各连接一个设备,在需要高速数据传输和大量设备连接的场景中连接数量和速度受限。因此需要pcie switch提供扩展或聚合能力,从而允许更多的设备连接到一个 pcle 端口,以解决 pcie 通道数量不够的问题。
pcie switch连接多条pcie总线
pcie switch兼具连接、交换功能,具有低功耗、低延迟、高可靠性、高灵活性等优势,能够将多条pcie总线连接在一起,形成一个高速的pcie互联网络,从而实现多设备通信。从pcie switch内部结构看,其由多个pci-pci桥接构成,实现从单条线到多条线的发散。pcie switch 芯片与其设备的通信协议都是 pcie。
02nvlink:高速 gpu 互连
算力的提升不仅依靠单张gpu卡的性能提升,往往还需要多gpu卡组合。在多gpu系统内部,gpu间通信的带宽通常在数百gb/s以上,pcie总线的数据传输速率容易成为瓶颈,且pcie链路接口的串并转换会产生较大延时,影响gpu并行计算的效率和性能。
gpu发出的信号需要先传递到pcie switch, pcie switch中涉及到数据的处理,cpu会对数据进行分发调度,这些都会引入额外的网络延迟,限制了系统性能。
为此,nvidia推出了能够提升gpu通信性能的技术——gpudirect p2p技术,使gpu可以通过pci express直接访问目标gpu的显存,避免了通过拷贝到cpu host memory作为中转,大大降低了数据交换的延迟,但受限于pci express总线协议以及拓扑结构的一些限制,无法做到更高的带宽。此后,nvidia提出了nvlink总线协议。
nvlink的演进
nvlink 是一种高速互连技术,旨在加快 cpu 与 gpu、gpu 与 gpu 之间的数据传输速度,提高系统性能。nvlink通过gpu之间的直接互联,可扩展服务器内的多gpu i/o,相较于传统pcie总线可提供更高效、低延迟的互联解决方案。
nvlink的首个版本于2014年发布,首次引入了高速gpu互连。2016年发布的p100搭载了第一代nvlink,提供 160gb/s 的带宽,相当于当时 pcie 3.0 x16 带宽的 5 倍。v100搭载的nvlink2将带宽提升到300gb/s ,a100搭载了nvlink3带宽为600gb/s。目前nvlink已迭代至第四代,可为多gpu系统配置提供高于以往1.5倍的带宽以及更强的可扩展性,h100中包含18条第四代nvlink链路,总带宽达到900 gb/s,是pcie 5.0带宽的7倍。
四代 nvlink 对比
目前已知的nvlink分两种,一种是桥接器的形式实现nvlink高速互联技术,另一种是在主板上集成了nvlink接口。
nvswitch
为了解决gpu之间通讯不均衡问题,nvidia引入nvswitch。nvswitch芯片是一种类似交换机asic的物理芯片,通过nvlink接口可以将多个gpu高速互联到一起,可创建无缝、高带宽的多节点gpu集群,实现所有gpu在一个具有全带宽连接的集群中协同工作,从而提升服务器内部多个gpu之间的通讯效率和带宽。nvlink和nvswitch的结合使nvidia得以高效地将ai性能扩展到多个gpu。
nvswitch 拓扑图
第一代 nvswitch于2018年发布,采用台积电 12nmfinfet 工艺制造,共有 18 个 nvlink 2.0 接口。目前 nvswitch 已经迭代至第三代。第三代 nvswitch 采用 tsmc 4n 工艺构建,每个 nvswitch 芯片上拥有 64 个 nvlink 4.0 端口,gpu 间通信速率可达 900gb/s。
三代 nvswitch 性能对比
2023 年 5 月 29 日,nvidia推出的dgx gh200 ai超级计算机,采用nvlink以及 nvlink switch system 将256个gh200 超级芯片相连,把所有gpu作为一个整体协同运行。dgx gh200 是第一台突破 nvlink 上 gpu 可访问内存 100 tb 障碍的超级计算机。
03ai时代下的网络互联
在逐步迈向ai时代网络互联的过程中,该选择pcie还是nvlink?我们可以先看下nvidia 的nvlink版(sxm版)与pcie版gpu的区别。
sxm架构是一种高带宽插座式解决方案,用于将 gpu连接到nvidia 专有的 dgx 和 hgx 系统。sxm 版gpu通过 nvswitch 芯片互联,gpu 之间交换数据采用nvlink,未阉割的a100是600gb/s、h100是900gb/s,阉割过的a800、h800为400gb/s。pcie版只有成对的 gpu 通过 nvlink bridge 连接,通过 pcie 通道进行数据通信。最新的pcie只有128gb/s。
ai /hpc的计算需求不断增长,因此越来越需要在 gpu 之间提供更大的互联带宽。总的来说,nvlink的传输速度与时延都要优于pcie,pcie的带宽已逐渐无法满足ai时代数据互联的需求。但pcie作为通用标准的互联技术,可广泛应用于各种场景,而nvlink为nvidia专有,是nvidia ai帝国的护城河,其他企业只能采用pcie或者别的互联协议。
像谷歌是通过自研的ocs(optical circuit switch)技术实现tpu之间的互联,解决tpu的扩展性问题。谷歌还自研了一款光路开关芯片palomar,通过该芯片可实现光互联拓扑的灵活配置。也就是说,tpu芯片之间的互联拓扑并非一成不变,可以根据机器学习的具体模型来改变拓扑,提升计算性能及可靠性。借助ocs技术,可以将4096个tpu v4组成一台超级计算机。
据称,目前国外ai芯片初创公司enfabrica和国内某些企业正沿着pcie/cxl switch方向在努力,结合cxl协议规范和pcie接口的通用性,打造cpu-cpu直连交换芯片和系统方案。近期,nvidia还对enfabrica进行了投资。有分析师表示,enfabrica完全具备作为nvidia竞争对手的潜力,未来nvidia可能会考虑收购这家初创公司。
市场发展瞬息万变,未来具体将如何演变不仅取决于技术创新,也取决于市场需求和行业合作。在这个不断演变的ai网络互联时代,企业如何抉择将取决于自身对性能、成本、应用场景和未来发展趋势等多重因素的考量。


这样的磁吸轨道系统,你喜欢吗?
云南联通4G网络人口覆盖率已从2016年末的30%提升到了65%
电源工程师设计全攻略(六):开关电源EMC及安全防范
配备传统触摸屏的MacBook Pro真的能问世吗?
控制测量
详解PCIe和NVLink两种互联技术
华为智能控制器iMaster NCE,共同推进DCI网络迈向自动驾驶
11个关于AR增强现实技术的“神话”
便携式FPGA实验平台EGO1介绍
负氧离子检测仪的功能特点
力神电池锂电储能项目再下一城
坚固耐用的智能军用显示器及其商业影响力
小米MIUI9最新消息:小米MIUI9已经在路上,与之同来的还有小米6plus和红米PRO2?
双杰电气集团将与和利时携手打造智能电网高端装备研发制造基地
iPhone折叠屏概念手机,能够承受30万次的折叠
一文解释清楚什么是程序
混频器的基本概念
苹果13手机什么时候上市预计价格多少
三相漏电保护器跳闸原因
PPE材料缺货严重,封测厂恐面临断链危机