深度解析数据中心的通讯连接方式

1. 网络的价值在于延续了集群算力摩尔定律
芯片层面网络:chip-to-chip场景,从pcie到高速连接
(一)通用/传统场景:pcie是服务 器内部通信的总线标准,制约了电口 通信速率的提升。 经典的通用服务器内,cpu、图形卡、 硬盘驱动器、ssd、wi-fi 、以太网 设备等主要基于pcie(pci express) 协议相互连接。 相较于4.0版本,pcie 5.0传输速度更 高,x16带宽(双向)从64 gb/s提 升到了128 gb/s;目前规范制定已迭 代至6.0版本,带宽再翻倍。
异构计算的初步创新:在pcie物 理架构和电气接口的基础上,英特 尔等牵头成立cxl联盟并最新推出 cxl 2.0-3.0规范,用于ai、高性 能计算等场景中cpu与gpu等的 互联,通过“内存池化”等方式优 化内存调用,进而提升系统整体性 能。
(二)nvidia代表,已对标pcie推出nvlink解决异构计算与ai算力网络瓶颈。 nvlink是nvidia专门设计用于点对点链路高速互联的网络方案(例如gpu to gpu连 接)。据nvidia白皮书,nvlink的开销比传统网络更低。 传统网络中复杂网络功能(例如端到端重试、自适应路由、数据包重新排序等),在nvlink体系 下可以在增加端口数的情况下进行权衡。 此外,基于nvlink的网络接口更加简单,允许将应用程序层、表示层和会话层功能直接嵌入到 cuda本身中,从而进一步减少通信开销。
此外nvidia发布适用于超算服务器内部的nvswitch芯片(最早2018 gtc大会发布第一代, 作用类似于交换机asic),进一步通过上述nvlink协议接口将多个gpu高速互联到一起。 据技术文档,在h100芯片+nvlink gen4协议这一代,nvidia配套了nvswitch gen3芯 片方案,采用台积电4n工艺,满足gpu间的点对点连接,内嵌alu使nvswitch提供fp32 的400gflops计算吞吐,每个芯片64个nvlink 4接口。 依据技术文档,nvswitch3芯片大小50mm*50mm,包括一个 sharp 控制器,可并行管理多达 128 个 sharp 组;内嵌alu可帮助nvswitch提供fp32的400gflops计算吞吐,并且支持fp16、 fp32、fp64和bf16等精度计算。 nvswitch3芯片提供64个nvlink4接口,每个nvlink4通道x2即200gbps单向带宽,单个芯片可提 供64 x 200gbps=12.8tbps(1.6tb/s)单向带宽、或3.2tb/s双工带宽。
设备层面网络:infiniband、nvlink等正迭代通用 算力下的以太网需求
结合实际情况,我们认为:单soc性能提升,不意味着算力集群整体性能的提升;单纯“堆 砌”集群芯片数量,而不优化网络连接,集群性能提升很快就会遇到瓶颈。 传统云计算场景下,算力设备以同构计算和简单的异构计算为主,通用的以太网很难满足大 规模gpu集群的连接需求。
英伟达解决集群性能瓶颈的方式 是引入 infiniband 网 络 , 并 将 c2c场景下应用的nvlink延伸至 设备间互联。据nvidia,2020年公司以69亿美 元 的 价 格 收 购 网 络 芯 片 厂 商 mellanox,后者致力于数据中心 infiniband和以太网互联产品的 研发。 2022-2023 年 dgx h100 superpod集群完善,重要变化 体现在nvlink从板上/片间互联 走向不同server或板卡的互联, 同时nvidia也相应发布了nvlink 交换机(hot chip等公开资料)。
据nvidia设计,每套superpod集群32台服务器折合256个h100 gpu,ai性能高达 1eflops;每套系统配18台nvlink交换机,系统双向带宽57.6tb/s;(网络需求增加) 。依照技术文档推荐方案,每套系统的32台dgx h100服务器中的400gb/s connectx-7网 卡对外与ib交换机连接,用于连接多套superpod系统。 两层nvswitch芯片设计:一层交换芯片位于服务器内,二层交换芯片位于交换机内。128个l1层芯片(32台服务器,每台4个)+36个l2层芯片(18台nvlink交换机,每台2个)。一 个集群内所有256个gpu的互联,都通过nvlink和nvlink交换机单独完成,不经过cx-7 pcie网络。 我们认为,从通信网络角度看, dgx h100 superpod高算力、高吞吐升级的精髓,在于: 将过去a100及之前用于服务器内部gpu高效连接的nvlink,外化到整个集群,借助新的 nvlink交换机,搭建l1、l2两层网络,实现跨服务器、跨机柜的gpu to gpu连接。
idc层面网络:ai与通用云计算架构核心差异在于组网
依据实际情况,数据中心中,拥有较大外部客户群、提供xaas的数据中心更可能由南北向 的流量主导;另一方面,对计算和存储有大量内部需求时,在服务器之间看到更多的东西向 流量,可以将他们的数据中心运营成具有较高径向的巨大集群。 两种主要的典型数据中心架构类型: 1)超大规模数据中心。这些架构相对庞大,层与层之间有一定的收敛性,例如3:1,并且在spine层 以上依靠相干zr光模块互连(dci)。800g网络的一个重要边界约束是,在服务器到tor层使用 200g互连。而tor-leaf/spine层通常使用psa;spine层通常依靠psm4 4x200g。 (层层汇聚,类似毛细血管到主静脉,带宽汇聚、连接数减少、网络架构金字塔形。)
2)ai的数据中心网络以胖树fat-tree架构为主。比超大规模网络的层数少、在各层之间几乎无收敛。 fat-tree是业界普遍认可的实现无阻塞网络的技术,对于任意的通信模式,总有路径让他们的通信带 宽达到网卡带宽,且用到的所有交换机都是相同的;fat-tree无带宽收敛:传统的树形网络拓扑中,带宽是逐层收敛的,树根处的网络带宽要远小于各个 叶子处所有带宽的总和。而fat-tree则更像是真实的树,越到树根,枝干越粗,即:从叶子到树根, 网络带宽不收敛。尤其在训练侧,数据、算力以内部流转为主,较多依赖内部径向流量的统一高带 宽。高速网络设备/器件的需求量更大。
2. nvidia:h100到gh200,网络价值陡增
aigc“前夜”,nvidia a100的网络架构与设备需求以 200g为基础。
nvidia的a100体系是典型的200g网络结构。 dgx a100的核心网卡mellanox connectx-6主要基于200gb/s hdr infiniband网络。因此底层 网络带宽即200g。dgx a100服务器背板明确拥有8个用于compute的200g qsfp56接口。另外 拥有2个用于storage的接口。 据技术文档,a100的dgx superpod集群,服务器与交换设备数量之比大致在1 : 1左右。 a100 superpod设计单集群20台dgx a100,搭配12台用于compute的ib交换机以及6 台用于storage的ib交换机(ib交换机qm8790为40 ports x 200 gb规格)。
当前“算力之巅”:英伟达h100的网络架构与设备需求 提升至400g/800g基准
在chapter 1中我们已经讨论过,h100网络架 构基础是 infiniband ndr 400gb 网 络 + nvlink 800gb网络。 一个标准的dgx h100 superpod由32台dgx h100、8个机柜组成。同时搭配8个leaf交换机和 4个spine交换机,均为ib ndr 400。 另外搭配若干storage交换机、management、 ufm、in-band、out-of-band设备。与a100相 比,h100主板接口明显减少,尤其compute接口 由8个减少为4个,但单口总带宽提升4倍至800gb (服务器厂商定制版本也有8×400g选择)。 同理于a100之测算,一个128 dgx h100服务器 集群(4x superpod,实际127台服务器,预留 1台空位替换ufm)为例,搭载1016个gpu、32 个leaf交换机、26台spine交换机(infiniband 网络需求); 线缆数超2000条。1个superpod对应8 leaf、4 spine;线缆数超500条。此外in-band、out-ofband交换机主要需要100g、400g网络。
gh200的设计精髓:最大化利用nvlink和infiniband 网络,光连接更优先
gh200体系的交换机需求,以256 片grace cpu+h100 gpu为例: 96+36 = 132台 nvlink交换机 (800g) ;24台 infiniband交换机(预计 400g/800g) ;42台 以太网交换机(预计 100g/200g,用于存储、管理等); 相比“256 gpus的dgx superpod集群,交换机用量不超 过50台”,gh200系统的交换机 需求大幅提升。
因此我们预计,nvidia未来将越来越重视在ai体系中引入nvlink网络,通过网络连接来 降低系统成本、提升整体性能: dgx h100服务器的架构设计,仍可见传统pc与通用服务器一路沿袭的思路,例如 motherboard、gpu tray等结构;而gh200则基于nvlink和ai需求对“芯片-设备idc”的网络架构做了重新设计。从系统复杂度、投资强度、整体性能提升三方面看,网 络设备与器件(包括交换机、光模块等)在系统中的重要性显著提升。
3. 谷歌:tpu v4背后,是ocs与更激进的光 网络设计
谷歌tpu:迭代至v4,asic 3d组网适配ai需求
谷歌自研tpu可追溯至2014年;据谷歌论文(tpu v4: an optically reconfigurable supercomputer for machine learning with hardware support for embeddings),最新tpu v4集群 采用激进的全光组网方案。据历代发布数据: tpu v1主要用于推理场景,单向架构,发布于2015年; tpu v2则定位于训练场景,单板4颗芯片,64g hbm替代ddr3,interconnect router提供4个 ici link做芯片互联、分别496gbps带宽(类似nvlink),发布于2017年; tpu v3同样单板4颗芯片,128g hbm,ici link带宽提升至656gbps,发布于2018年; tpu v4的128g hbm带宽升级至1200gbps,ici link则迭代为6路448gbps。
谷歌ocs:全光交换、wdm等光通信技术,算力 与网络同行
ocs即optical circuit switches,是谷歌tpu v4网络连接的核心交换机。 通常数据中心内数据交换是光电混合网络,设备之间的主要互联通过光缆/铜缆/光电转换 器件、以及交换机asic/serdes/pcie/nvlink等链路实现。 与过去在网络层之间多次将信号“从电转换为光再到电”不同,ocs是一种全光学的连接 方案,通过mems阵列结合光环路器、波分复用光模块实现光路的灵活切换、以达到直接 通过光信号组建交换网络的目的。
4. amd、amazon等:芯片亦持续迭代
amd:mi300系列2.5d-3d封装,板上带宽显著增加
据amd发布会,mi300系列方案内存 容量与带宽显著提升:mi300x拥有192gb的hbm3、 5.2tbps的带宽和896gbps的infinity fabric带宽; amd infinity 架构将 8 个mi300x 加 速器连接在一个系统中,提供合计1.5 tb的hbm3内存。
amazon:自研trainium芯片支撑trn1等训练云服务
amazon发布由自研芯片 trainuim支持的aws ec2 trn1: 每台trn1最多可搭配16颗 trainium芯片,芯片内neuron link专用连接并搭配hbm内存, 调用800 gbps的elastic fabric adapter网络接口,可横向拓展 至1万颗以上的trainium芯片。 进阶版本trn1n的efa带宽将达到 1600 gbps。
5. 结论
结合上文: 1)系统复杂度、投资强度、整体性能提升效果三方面看,网络设备与器件(包括交换机、光模块等)在 ai系统中的重要性显著提升:nvidia h100到gh200系统,官方标准配置下800g光模块用量可提升 30%-275%,同样256gpu集群的交换机需求从不足50台提升至150台以上。 2)谷歌自研tpu v4背后,是矩阵计算、ocs光交换与更激进的光网络设计。3d组网是tpu v4系统最 大亮点,网络起重要作用,导入全光交换、wdm等光通信技术后,算力与网络需求同步提升。 3)amd最新mi300体系和aws自研trn训练芯片,同样重视带宽、拓展性的价值。
我们认为: 在ai领域,网络的价值在于延续了集群算力的摩尔定律。 1)吞吐带宽与连接架构是算力性能不可忽视的决定因素。 2)芯片层面,高速c2c连接方案(如nvlink、cxl等)的推广,是宏观设备/数据中心层高速网络、光 网络等需求爆发的底层逻辑。 3)设备层面,单soc性能提升+芯片“堆量”,不意味着算力集群整体性能的线性提升;而nvidia、 google、amd、aws等算力大厂正应用infiniband、ocs等新架构替代通用算力下的以太网,带来 增量网络需求。
报告节选:


高通发布骁龙X65基带:新iPhone能用上
斯凯孚发布新一代产品及解决方案,以创新重构旋转
甲小姐对话单记章:自动驾驶的中国芯
三星柔性面板短板曝光,网友:放回展示柜里吧
iW2202典型应用电路
深度解析数据中心的通讯连接方式
真空除泡机
森海塞尔IE40Pro评测 非常适合监听人士聆听
燃料开关测试系统的设计与实现
科技推动罐区安全运行 | 定华电子与您一起回顾4月展会精彩瞬间~
电话分机保密器工作原理及使用调整
详解国产音频DAC芯片的工作原理及应用
SPI编程时,如何理解时钟相位和时钟极性
当模块化手机来临,一台设备就够了?
瞬变电流检测电路图
云计算,世界杯直播的一大助力
NVMe进攻下,SAS还有未来吗?
为篮球而生:红旗胜利科技发布HIPLAY智能手环
坚果pro、小米5c对比评测:当情怀遇到黑科技,坚果Pro与小米5C会擦出怎样的火花!
有方5G亮相天翼智能生态博览会 成功入库中国电信