InfiniBand的网络架构及技术原理解析

对于infiniband,很多搞数通的同学肯定不会陌生。
进入21世纪以来,随着云计算、大数据的不断普及,数据中心获得了高速发展。而infiniband,就是数据中心里的一项关键技术,地位极为重要。
尤其是今年以来,以chatgpt为代表的ai大模型强势崛起,更是让infiniband的关注热度大涨。因为,gpt们所使用的网络,就是英伟达公司基于infiniband构建的。
那么,infiniband到底是什么技术?它为什么会倍受追捧?人们经常讨论的“infiniband与以太网”之争,又是怎么回事?
今天这篇文章,我们来逐一解答。
01. infiniband的发展历程
infiniband(简称ib),是一种能力很强的通信技术协议。它的英文直译过来,就是“无限带宽”。
infiniband的诞生故事,还要从计算机的架构讲起。
大家都知道,现代意义上的数字计算机,从诞生之日起,一直都是采用的冯·诺依曼架构。在这个架构中,有cpu(运算器、控制器)、存储器(内存、硬盘),还有i/o(输入/输出)设备。
上世纪90年代早期,为了支持越来越多的外部设备,英特尔公司率先在标准pc架构中引入pci(peripheral component interconnect,外设部件互连标准)总线设计。
pci总线,其实就是一条通道。
不久后,互联网进入高速发展阶段。线上业务和用户规模的不断增加,给it系统的承载能力带来了很大挑战。
当时,在摩尔定律的加持下,cpu、内存、硬盘等部件都在快速升级。而pci总线,升级速度缓慢,大大限制了i/o性能,成为整个系统的瓶颈。
为了解决这个问题,英特尔、微软、sun公司主导开发了“next generation i/o(ngio)”技术标准。而ibm、康柏以及惠普公司,则主导开发的“future i/o(fio)”。ibm这三家公司,还合力搞出了pci-x标准(1998年)。
1999年,fio developers forum和ngio forum进行了合并,创立了infiniband贸易协会(infiniband trade association,ibta)。
很快,2000年,infiniband架构规范的1.0版本正式发布了。
简单来说,infiniband的诞生目的,就是为了取代pci总线。它引入了rdma协议,具有更低的延迟,更大的带宽,更高的可靠性,可以实现更强大的i/o性能。(技术细节,后文会详细介绍。)
说到infiniband,有一家公司我们是必须提到的,那就是大名鼎鼎的mellanox。
1999年5月,几名从英特尔公司和伽利略技术公司离职的员工,在以色列创立了一家芯片公司,将其命名为mellanox。
mellanox公司成立后,就加入了ngio。后来,ngio和fio合并,mellanox随之加入了infiniband阵营。2001年,他们推出了自己的首款infiniband产品。
2002年,infiniband阵营突遭巨变。
这一年,英特尔公司“临阵脱逃”,决定转向开发pci express(也就是pcie,2004年推出)。而另一家巨头微软,也退出了infiniband的开发。
尽管sun和日立等公司仍选择坚持,但infiniband的发展已然蒙上了阴影。
2003年开始,infiniband转向了一个新的应用领域,那就是计算机集群互联。
这一年,美国弗吉尼亚理工学院创建了一个基于infiniband技术的集群,在当时的top500(全球超级计算机500强)测试中排名第三。
2004年,另一个重要的infiniband非盈利组织诞生——ofa(open fabrics alliance,开放fabrics联盟)。
ofa和ibta是配合关系。ibta主要负责开发、维护和增强infiniband协议标准;ofa负责开发和维护infiniband协议和上层应用api。
2005年,infiniband又找到了一个新场景——存储设备的连接。
老一辈网工一定记得,当年infiniband和fc(fibre channel,光纤通道)是非常时髦的san(storage area network,存储区域网络)技术。小枣君初次接触infiniband,就是在这个时候。
再后来,infiniband技术逐渐深入人心,开始有了越来越多的用户,市场占比也不断提升。
到了2009年,在top500榜单中,已经有181个采用了infiniband技术。(当然,千兆以太网当时仍然是主流,占了259个。)
在infiniband逐渐崛起的过程中,mellanox也在不断壮大,逐渐成为了infiniband市场的领导者。
2010年,mellanox和voltaire公司合并,infiniband主要供应商只剩下mellanox和qlogic。不久后,2012年,英特尔公司出资收购了qlogic的infiniband技术,返回到infiniband的竞争赛道。
2012年之后,随着高性能计算(hpc)需求的不断增长,infiniband技术继续高歌猛进,市场份额不断提升。
2015年,infiniband技术在top500榜单中的占比首次超过了50%,达到51.4%(257套)。
这标志着infiniband技术首次实现了对以太网(ethernet)技术的逆袭。infiniband 成为超级计算机最首选的内部连接技术。
2013年,mellanox相继收购了硅光子技术公司kotura和并行光互连芯片厂商iptronics,进一步完善了自身产业布局。2015年,mellanox在全球infiniband市场上的占有率达到80%。他们的业务范围,已经从芯片逐步延伸到网卡、交换机/网关、远程通信系统和线缆及模块全领域,成为世界级网络提供商。
面对infiniband的赶超,以太网也没有坐以待毙。
2010年4月,ibta发布了roce(rdma over converged ethernet,基于融合以太网的远程直接内存访问),将infiniband中的rdma技术“移植”到了以太网。2014年,他们又提出更加成熟的roce v2。
有了roce v2,以太网大幅缩小了和infiniband之间的技术性能差距,结合本身固有的成本和兼容性优势,又开始反杀回来。
大家通过下面这张图,可以看出从2007年到2021年的top500榜单技术占比。
如图所示,2015年开始,25g及更高速率的以太网(图中深绿色的线)崛起,迅速成为行业新宠,一度压制住了infiniband。
2019年,英伟达(nvidia)公司豪掷69亿美元,击败对手英特尔和微软(分别出价60亿和55亿美元),成功收购了mellanox。
对于收购原因,英伟达ceo黄仁勋是这么解释的:
“这是两家全球领先高性能计算公司的结合,我们专注于加速计算(accelerated computing),而mellanox专注于互联和存储。”
现在看来,老黄的决策是非常有远见的。
正如大家所见,aigc大模型崛起,整个社会对高性能计算和智能计算的需求井喷。
想要支撑如此庞大的算力需求,必须依赖于高性能计算集群。而infiniband,在性能上是高性能计算集群的最佳选择。
将自家的gpu算力优势与mellanox的网络优势相结合,就等于打造了一个强大的“算力引擎”。在算力基础设施上,英伟达毫无疑问占据了领先优势。
如今,在高性能网络的竞争上,就是infiniband和高速以太网的缠斗。双方势均力敌。不差钱的厂商,更多会选择infiniband。而追求性价比的,则会更倾向高速以太网。
剩下还有一些技术,例如ibm的bluegene、cray,还有intel的omnipath,基本属于第二阵营了。
02. infiniband的技术原理
介绍完infiniband的发展历程,接下来,我们再看看它的工作原理。为什么它会比传统以太网更强。它的低时延和高性能,究竟是如何实现的。
起家本领——rdma
前文提到,infiniband最突出的一个优势,就是率先引入rdma(remote direct memory access,远程直接数据存取)协议。
在传统tcp/ip中,来自网卡的数据,先拷贝到核心内存,然后再拷贝到应用存储空间,或从应用空间将数据拷贝到核心内存,再经由网卡发送到internet。
这种i/o操作方式,需要经过核心内存的转换。它增加了数据流传输路径的长度,增加了cpu的负担,也增加了传输延迟。
传统模式 vs rdma模式
rdma相当于是一个“消灭中间商”的技术。
rdma的内核旁路机制,允许应用与网卡之间的直接数据读写,将服务器内的数据传输时延降低到接近1us。
同时,rdma的内存零拷贝机制,允许接收端直接从发送端的内存读取数据,绕开了核心内存的参与,极大地减少了cpu的负担,提升cpu的效率。
如前文所说,infiniband之所以能迅速崛起,rdma居功至伟。
infiniband的网络架构
infiniband的网络拓扑结构示意,如下图所示:
infiniband是一种基于通道的结构,组成单元主要分为四类:
· hca(host channel adapter,主机通道适配器)· tca(target channel adapter,目标通道适配器)· infiniband link(连接通道,可以是电缆或光纤,也可以是板上链路)· infiniband交换机和路由器(组网用的)
通道适配器就是搭建infiniband通道用的。所有传输均以通道适配器开始或结束,以确保安全或在给定的qos(服务质量)级别下工作。
使用infiniband的系统可以由多个子网(subnet)组成,每个子网最大可由6万多个节点组成。子网内部,infiniband交换机进行二层处理。子网之间,使用路由器或网桥进行连接。
infiniband组网示例
infiniband的二层处理过程非常简单,每个infiniband子网都会设一个子网管理器,生成16位的lid(本地标识符)。infiniband交换机包含多个infiniband端口,并根据第二层本地路由标头中包含的lid,将数据包从其中一个端口转发到另一个端口。除管理数据包外,交换机不会消耗或生成数据包。
简单的处理过程,加上自有的cut-through技术,infiniband将转发时延大幅降低至100ns以下,明显快于传统以太网交换机。
在infiniband 网络中,数据同样以数据包(最大4kb)的形式传输,采用的是串行方式。
infiniband的协议栈
infiniband协议同样采用了分层结构。各层相互独立,下层为上层提供服务。如下图所示:
其中,物理层定义了在线路上如何将比特信号组成符号,然后再组成帧、数据符号以及包之间的数据填充等,详细说明了构建有效包的信令协议等。
链路层定义了数据包的格式以及数据包操作的协议,如流控、 路由选择、编码、解码等。
网络层通过在数据包上添加一个40字节的全局的路由报头(global route header, grh)来进行路由的选择,对数据进行转发。
在转发的过程中,路由器仅仅进行可变的crc校验,这样就保证了端到端的数据传输的完整性。
infiniband报文封装格式
传输层再将数据包传送到某个指定的队列偶(queue pair, qp)中,并指示qp如何处理该数据包。
可以看出,infiniband拥有自己定义的1-4层格式,是一个完整的网络协议。端到端流量控制,是infiniband网络数据包发送和接收的基础,可以实现无损网络。
说到qp(队列偶),我们需要多提几句。它是rdma技术中通信的基本单元。
队列偶就是一对队列,sq(send queue,发送工作队列)和rq(receive queue,接收工作队列)。用户调用api发送接收数据的时候,实际上是将数据放入qp当中,然后以轮询的方式,将qp中的请求一条条的处理。
infiniband的链路速率
infiniband链路可以用铜缆或光缆,针对不同的连接场景,需使用专用的infiniband线缆。
infiniband在物理层定义了多种链路速度,例如1x,4x,12x。每个单独的链路是四线串行差分连接(每个方向两根线)。
以早期的sdr(单数据速率)规范为例,1x链路的原始信号带宽为2.5gbps,4x链路是10gbps,12x链路是30gbps。
1x链路的实际数据带宽为2.0gbps(因为采用8b/10b编码)。由于链路是双向的,因此相对于总线的总带宽是4gbps。
随着时间的推移,infiniband的网络带宽不断升级,从早期的sdr、ddr、qdr、fdr、edr、hdr,一路升级到ndr、xdr、gdr。如下图所示:
英伟达最新的quantum-2平台好像采用的是ndr 400g
具体速率和编码方式
infiniband的商用产品
最后,我们再来看看市面上的infiniband商用产品。
英伟达收购mellanox之后,于2021年推出了自己的第七代nvidia infiniband架构——nvidia quantum-2。
nvidia quantum-2平台包括:nvidia quantum-2 系列交换机、nvidia connectx-7 infiniband 适配器、bluefield-3 infiniband dpu,以及相关的软件。
nvidia quantum-2 系列交换机采用紧凑型1u设计,包括风冷和液冷版本。交换机的芯片制程工艺为7nm,单芯片拥有570亿个晶体管(比a100 gpu还多)。采用64个400gbps端口或128个200gbps端口的灵活搭配,提供总计51.2tbps的双向吞吐量。
nvidia connectx-7 infiniband 适配器,支持pcie gen4和gen5,具有多种外形规格,可提供400gbps的单或双网络端口。
03. 结语
根据行业机构的预测,到2029年,infiniband的市场规模将达到983.7亿美元,相比2021年的66.6亿美元,增长14.7倍。预测期内(2021-2029)的复合年增长率,为 40%。
在高性能计算和人工智能计算的强力推动下,infiniband的发展前景令人期待。
究竟它和以太网谁能笑到最后,就让时间来告诉我们答案吧!


塑造汽车行业的趋势和技术
Multitest推出可一次完成9自由度测试的感测器测试暨校正仪
iPhone8什么时候上市:iPhone8回归经典仍有创新,资深果粉联合威锋技术组6大方面分析iPhone8
华成工控获评第二批广东省智能制造生态合作伙伴!
关于陶瓷电容的电容量的大小分析和介绍
InfiniBand的网络架构及技术原理解析
微彼防盗报警器
未来的无人机行业有什么新的趋势
linux TCP/IP 协议栈源码分析
常见半导体电阻器的特点与用途
苹果A11芯片将被iPhone8独占:iPhone 7s将走向没落
手机无线充新规来了:功率50W封顶
如何去打造零信任网络
贝尔金是哪个国家的品牌
白色版iPhone 4将于4月出售
电动汽车起火事故频发倒逼动力电池安全技术升级
基于博流BL606P音视频开发板的智能音箱系统开发方案
晶片键合质量的红外检测系统设计
空气净化器采用负离子功能有何不同,产品又有何特色?
西安交大提出全无机异质结器件结构,有力促进钙钛矿LED的开发