详解PCIe和NVLink两种互联技术

计算机网络通信中两个重要的衡量指标是带宽和延迟，ai 网络也是如此。在向百亿级及以上规模的发展过程中，影响ai计算集群性能的关键并不只在于单个芯片的处理速度，每个芯片之间的通信速度也尤为重要。
目前gpu卡间互联的主要协议是pcie和nvlink，服务器间互联则是rdma和以太网。之前我们有谈过ib和roce（ ib和roce，谁更适合ai数据中心网络? ），本文将主要介绍pcie和nvlink两种互联技术。
01pcie ：高带宽扩展总线
总线是服务器主板上不同硬件互相进行数据通信的管道，可以简单理解为生活中的各种交通道路。总线对硬件间数据传输速度起着决定性的作用，目前最流行的总线协议为pcie（pci-express），最早由intel于2001年提出。
pcle主要用于连接cpu与各类高速外围设备，如gpu、ssd、网卡、显卡等。与传统的pci总线相比，pcie采用点对点连接方式，具有更高的性能和可扩展性。伴随着ai、自动驾驶、ar/vr等应用快速发展，计算要求愈来愈高，处理器i/o带宽的需求每三年实现翻番，pcie也大致按照3年一代的速度更新演进，每一代升级几乎能够实现传输速率的翻倍，并有着良好的向后兼容性。
2003 年pcie 1.0 正式发布，可支持每通道传输速率为 250mb/s，总传输速率为 2.5 gt/s。
2007 年推出pcie 2.0 规范。在 pcie 1.0 的基础上将总传输速率提高了一倍，达到 5 gt/s，每通道传输速率从 250 mb/s 上升至 500 mb/s。
2022 年 pcie 6.0 规范正式发布，总带宽提高至 64 gt/s。
2022年6月，pci-sig联盟宣布pcie 7.0版规范，单条通道（x1）单向可实现128gt/s传输速率，计划于2025年推出最终版本。
pcie 1.0 到 6.0 不同 lane 下的带宽变化
retimer
在pcie标准的迭代过程中，随着通信速率的逐步提高，信号质量也会受到影响，为应对愈演愈烈的信号衰减问题，pcie从4.0时期开始引入信号调理芯片：
pcie retimer
retimer是一种数模信号混合芯片，功能主要为重新生成信号。retimer 先恢复抖动的时钟信号，再生成新信号并重新发送，从而有效解决信号衰减问题，为服务器、存储设备及硬件加速器等应用场景提供可扩展的高性能pcie互联解决方案。
pcie redriver
redriver是一种信号放大器，通过发射端的驱动器和接收端的滤波器提升信号强度，从而实现对信号损耗的补偿。
从工作原理来看，redriver通过放大信号来恢复数据，而retimer 则重新建立一个传输信号的新副本。与 redriver 相比，retimer 恢复信号的效果更好，能够实现比redriver更优的降低信道损耗效果，但由于增加了数据处理过程，时延有所增加。
pcie switch
pcie 的链路通信是一种端对端的数据传输，每一条pcie链路两端只能各连接一个设备，在需要高速数据传输和大量设备连接的场景中连接数量和速度受限。因此需要pcie switch提供扩展或聚合能力，从而允许更多的设备连接到一个 pcle 端口，以解决 pcie 通道数量不够的问题。
pcie switch连接多条pcie总线
pcie switch兼具连接、交换功能，具有低功耗、低延迟、高可靠性、高灵活性等优势，能够将多条pcie总线连接在一起，形成一个高速的pcie互联网络，从而实现多设备通信。从pcie switch内部结构看，其由多个pci-pci桥接构成，实现从单条线到多条线的发散。pcie switch 芯片与其设备的通信协议都是 pcie。
02nvlink：高速 gpu 互连
算力的提升不仅依靠单张gpu卡的性能提升，往往还需要多gpu卡组合。在多gpu系统内部，gpu间通信的带宽通常在数百gb/s以上，pcie总线的数据传输速率容易成为瓶颈，且pcie链路接口的串并转换会产生较大延时，影响gpu并行计算的效率和性能。
gpu发出的信号需要先传递到pcie switch, pcie switch中涉及到数据的处理，cpu会对数据进行分发调度，这些都会引入额外的网络延迟，限制了系统性能。
为此，nvidia推出了能够提升gpu通信性能的技术——gpudirect p2p技术，使gpu可以通过pci express直接访问目标gpu的显存，避免了通过拷贝到cpu host memory作为中转，大大降低了数据交换的延迟，但受限于pci express总线协议以及拓扑结构的一些限制，无法做到更高的带宽。此后，nvidia提出了nvlink总线协议。
nvlink的演进
nvlink 是一种高速互连技术，旨在加快 cpu 与 gpu、gpu 与 gpu 之间的数据传输速度，提高系统性能。nvlink通过gpu之间的直接互联，可扩展服务器内的多gpu i/o，相较于传统pcie总线可提供更高效、低延迟的互联解决方案。
nvlink的首个版本于2014年发布，首次引入了高速gpu互连。2016年发布的p100搭载了第一代nvlink，提供 160gb/s 的带宽，相当于当时 pcie 3.0 x16 带宽的 5 倍。v100搭载的nvlink2将带宽提升到300gb/s ，a100搭载了nvlink3带宽为600gb/s。目前nvlink已迭代至第四代，可为多gpu系统配置提供高于以往1.5倍的带宽以及更强的可扩展性，h100中包含18条第四代nvlink链路，总带宽达到900 gb/s，是pcie 5.0带宽的7倍。
四代 nvlink 对比
目前已知的nvlink分两种，一种是桥接器的形式实现nvlink高速互联技术，另一种是在主板上集成了nvlink接口。
nvswitch
为了解决gpu之间通讯不均衡问题，nvidia引入nvswitch。nvswitch芯片是一种类似交换机asic的物理芯片，通过nvlink接口可以将多个gpu高速互联到一起，可创建无缝、高带宽的多节点gpu集群，实现所有gpu在一个具有全带宽连接的集群中协同工作，从而提升服务器内部多个gpu之间的通讯效率和带宽。nvlink和nvswitch的结合使nvidia得以高效地将ai性能扩展到多个gpu。
nvswitch 拓扑图
第一代 nvswitch于2018年发布，采用台积电 12nmfinfet 工艺制造，共有 18 个 nvlink 2.0 接口。目前 nvswitch 已经迭代至第三代。第三代 nvswitch 采用 tsmc 4n 工艺构建，每个 nvswitch 芯片上拥有 64 个 nvlink 4.0 端口，gpu 间通信速率可达 900gb/s。
三代 nvswitch 性能对比
2023 年 5 月 29 日，nvidia推出的dgx gh200 ai超级计算机，采用nvlink以及 nvlink switch system 将256个gh200 超级芯片相连，把所有gpu作为一个整体协同运行。dgx gh200 是第一台突破 nvlink 上 gpu 可访问内存 100 tb 障碍的超级计算机。
03ai时代下的网络互联
在逐步迈向ai时代网络互联的过程中，该选择pcie还是nvlink？我们可以先看下nvidia 的nvlink版（sxm版）与pcie版gpu的区别。
sxm架构是一种高带宽插座式解决方案，用于将 gpu连接到nvidia 专有的 dgx 和 hgx 系统。sxm 版gpu通过 nvswitch 芯片互联，gpu 之间交换数据采用nvlink，未阉割的a100是600gb/s、h100是900gb/s，阉割过的a800、h800为400gb/s。pcie版只有成对的 gpu 通过 nvlink bridge 连接，通过 pcie 通道进行数据通信。最新的pcie只有128gb/s。
ai /hpc的计算需求不断增长，因此越来越需要在 gpu 之间提供更大的互联带宽。总的来说，nvlink的传输速度与时延都要优于pcie，pcie的带宽已逐渐无法满足ai时代数据互联的需求。但pcie作为通用标准的互联技术，可广泛应用于各种场景，而nvlink为nvidia专有，是nvidia ai帝国的护城河，其他企业只能采用pcie或者别的互联协议。
像谷歌是通过自研的ocs（optical circuit switch）技术实现tpu之间的互联，解决tpu的扩展性问题。谷歌还自研了一款光路开关芯片palomar，通过该芯片可实现光互联拓扑的灵活配置。也就是说，tpu芯片之间的互联拓扑并非一成不变，可以根据机器学习的具体模型来改变拓扑，提升计算性能及可靠性。借助ocs技术，可以将4096个tpu v4组成一台超级计算机。
据称，目前国外ai芯片初创公司enfabrica和国内某些企业正沿着pcie/cxl switch方向在努力，结合cxl协议规范和pcie接口的通用性，打造cpu-cpu直连交换芯片和系统方案。近期，nvidia还对enfabrica进行了投资。有分析师表示，enfabrica完全具备作为nvidia竞争对手的潜力，未来nvidia可能会考虑收购这家初创公司。
市场发展瞬息万变，未来具体将如何演变不仅取决于技术创新，也取决于市场需求和行业合作。在这个不断演变的ai网络互联时代，企业如何抉择将取决于自身对性能、成本、应用场景和未来发展趋势等多重因素的考量。

这样的磁吸轨道系统，你喜欢吗？
云南联通4G网络人口覆盖率已从2016年末的30%提升到了65%
电源工程师设计全攻略（六）：开关电源EMC及安全防范
配备传统触摸屏的MacBook Pro真的能问世吗？
控制测量
详解PCIe和NVLink两种互联技术
华为智能控制器iMaster NCE,共同推进DCI网络迈向自动驾驶
11个关于AR增强现实技术的“神话”
便携式FPGA实验平台EGO1介绍
负氧离子检测仪的功能特点
力神电池锂电储能项目再下一城
坚固耐用的智能军用显示器及其商业影响力
小米MIUI9最新消息:小米MIUI9已经在路上,与之同来的还有小米6plus和红米PRO2?
双杰电气集团将与和利时携手打造智能电网高端装备研发制造基地
iPhone折叠屏概念手机，能够承受30万次的折叠
一文解释清楚什么是程序
混频器的基本概念
苹果13手机什么时候上市预计价格多少
三相漏电保护器跳闸原因
PPE材料缺货严重，封测厂恐面临断链危机