使用Magnum IO用于云本机超级计算架构

超级计算机是一项重要的投资,但对于研究人员和科学家来说,它们是极其宝贵的工具。为了有效和安全地共享这些数据中心的计算能力, nvidia 引入了云本地超级计算架构。它结合了裸机性能、多租户和超级计算的性能隔离。
magnum io是数据中心的 i / o 子系统,它引入了新的增强功能,以加速支持多租户数据中心的 i / o 和通信。我们将这些增强功能称为 magnum io ,用于云本机超级计算架构。
它们由 nvidia quantum-2 infiniband 平台提供,该平台包括 nvidia quantum-2 交换机系列、bluefield-3 dpu 和 connectx-7 网络适配器。
这种进化环境的挑战是什么?
基于 gpu 的高性能计算已经通过机器学习和模拟改变了科学并增强了实验。运行这些深度学习框架和模拟工具的 gpu 会消耗数 pb 的数据,并在整个数据中心造成拥塞和瓶颈。使事情进一步复杂化的是,这些应用程序的多个实例在共享超级计算基础设施中同时运行会对每个应用程序的性能产生不利影响,从而导致无法预测的运行时间。
magnum io for cloud 本机超级计算体系结构具有新的和改进的功能,以减轻在多租户环境中运行对最终用户性能的负面影响。它提供确定性的性能级别,就好像它们的应用程序是网络上唯一运行的应用程序一样。
第三代 nvidia sharp (可扩展分层聚合和缩减协议)
夏普技术通过消除端点之间多次发送数据的需要,将集合操作从主机 cpu 卸载到交换机网络,从而提高了 mpi 操作的性能。这种方法减少了到达聚合节点时通过网络的数据量,并显著减少了 mpi 操作时间。
在网络中实现集体通信算法还有其他好处,例如释放宝贵的 cpu 资源用于计算,而不是使用它们来处理通信。
图 1 nvidia sharp 聚合架构框图。
最近发布的 nvidia quantum-2 infiniband 交换机为通过网络的大型数据聚合提供了几乎无限的可扩展性。由于支持无限的小消息缩减和每个交换机的多个大消息缩减流,跨共享系统运行应用程序的多个租户现在可以充分利用 sharp 的优势。
watch the in-network computing with nvidia sharp video.
性能隔离
多租户超级计算涉及许多在共享基础设施上运行的用户应用程序,可能会重复使用物理服务器、存储、网络以及这些应用程序生成的 i / o 流量模式。
nvidia quantum infiniband 在检测到网络拥塞时管理网络拥塞,并在源位置实施控制以减少网络拥塞。但使用多租户,用户应用程序可能不知道对相邻应用程序流量的任意干扰,因此需要隔离以提供预期的性能级别。
借助最新的 nvidia quantum-2 infiniband 平台和 magnum io ,创新的主动监控和拥塞管理提供了所需的流量隔离。这几乎消除了性能抖动,并确保了预期的预测性能,就像应用程序在专用系统上运行一样。
图 2 性能隔离的好处。
专为安全、多租户、裸机性能而打造
nvidia cloud-native supercomputing体系结构使用 magnum io 在多租户环境中实现最高性能、安全性和编排。
图 3 使用 dpu 迁移到云本机超级计算体系结构。
此外,实现这种架构转换的另一个核心元素是数据处理单元( dpu ),也称为 bluefield 。作为一个完全集成的片上数据中心平台, bluefield 卸载和管理数据中心基础设施,而不是主机处理器,实现超级计算机的安全和协调。它还能够提供额外的通信框架卸载,产生 100% 的通信计算重叠,同时实现 mpi _ alltoall 44% 的性能提升和 mpi _ iallgather 36% 的性能提升。当结合 nvidia quantum-2 的最新进展时,该体系结构在安全的多节点体系结构中展示了裸机性能的性能隔离。
magnum io 消除了 i / o 瓶颈,并公开了硬件级加速引擎、网络计算和拥塞控制方面的最新技术,这些技术是支持当今具有裸机性能的多租户数据中心所必需的。
关于作者
scot schultz 是 hpc 技术专家,专注于人工智能和机器学习系统。 scot 在分布式计算、操作系统、人工智能框架、高速互连和处理器技术方面拥有广泛的知识。在他的整个职业生涯中,拥有超过 25 年的高性能计算系统经验,他的职责包括各种工程和领导角色,包括战略 hpc 技术生态系统支持。 scot 在众多行业标准组织的成长和发展中发挥了重要作用。
harry petty 是一位经验丰富的数据中心营销人员和技术专家,曾在大型科技公司担任领导职务,为混合云、存储解决方案、网络处理器和服务器产品线推广 sdn 产品。他曾与许多客户合作,在多个数据中心部署应用程序。当 harry 不讨论 hpc 数据中心的 io 子系统时,他喜欢在北加利福尼亚州附近的 sierra 山麓和湖泊中进行户外活动。


二手手机江湖往事:苹果一跺脚,华强北抖三抖
PCle第五代CEM连接器
如何使用Arduino制作电感LC表
层出不穷的“黑科技”惊艳无线通信
集成汽车 GaN 功率器件
使用Magnum IO用于云本机超级计算架构
基于SAA6752HS芯片和TMS32VC5502实现MPEG-2视频编码系统的设计
RGB LED灯条制作
RPA+AI将成为企业高端智能化的应用趋势
电荷耦合器件的工作原理及特性应用
威纶通MT607触摸屏的初步认识
广电总局重申181号文件,互联网电视路在何方?
5G要用毫米波需要克服的两大难题
浅谈波峰焊接过程的管理是怎么样的?
一次性使用无菌血管内导管流量测试仪
一种低成本设计隔离式电源供应电路
详细介绍坐标机器人码垛机的技术以及结构特点
数控高速加工技术的核心技术有哪些
中国光谷推动光电行业产业链融合发展
一种智能公交系统方案