作为在top500、green500(单机柜)和hpl-ai三榜排名第一的超算系统,frontier被列为第一完全不是浪得虚名。作为首个公开突破e级的超算,frontier的通用算力已经达到了1.1 exaflops,能效比为52.23 gigaflops/watt,ai算力更是达到了可怕的6.88 exaflops。但就是这样一台冠绝群雄的超算,也在部署上遇到了供应问题。
狂堆硬件的frontier
实现frontier强大性能靠的并非只是单个强劲的硬件,还有庞大的系统规模。整个frontier超算系统用到了74个慧与科技的cray ex全液冷超算机柜和9408块amd eypc trento cpu,trento 是amd milan cpu的优化版,同样是64核128线程的处理器,但在时钟速度和能效上有所加强。至于为何没用上引入3d垂直缓存技术的milanx-x芯片,那是因为这块处理器今年3月份才正式出货,如果拿它来打造frontier的话,这抢发首台e级超算的机会很可能就失之交臂了。
除了cpu以外,frontier还集成了37632块amd mi250x gpu,37632块慧与的cassini nic,9.2pb的内存(4.6 pb hbm2e+4.6pb ddr4),32pb节点本地存储和716pb的中心存储。整个系统共由9408个节点组成,每台机柜包含128个节点,重量接近400公斤,庞大的系统也将功耗推至恐怖的29mw。除了mw级的液冷引擎外,frontier还在外部部署了evapco的冷却塔,确保frontier能够保证峰值性能。
供应链噩梦frontier的部署计划正式始于2018年,为了给frontier腾出空间,原本属于titan超算的数据中心被拆除,改建为frontier的数据中心,泰坦也于2019年正式退役。同年,慧与的cray系统成功拿下了美国能源部的订单,成了frontier的基础构成部分。
但事实上,原本frontier应该在2021年就部署完毕的,然而由于供应链上各个方面的影响,直到2021年秋季,才只完成了系统的交付,直到今年五月才完成最终的安装、优化和一次成功的e级hpl测试。当然了,frontier最后能够争下首发e级超算,还是因为英特尔的7nm工艺也就是如今的intel 4遇到了问题,被反复推迟,这样才让原本打算首发e级的aurora超算,错失了这个殊荣。
但对于frontier超级计算机这种大型集成系统来说,全球供应链各个环节上的问题基本也都撞上了。首先遇上问题的就是frontier的两大直接供应商,慧与和amd。2020年末,frontier的零部件短缺到了最严重的地步。整个frontier系统要用到685个不同料号的零部件,其中167个因为缺货问题而受到影响,总数达到了200万个。
慧与表示,当它们开始下单用于机柜和slingshot互联系统的部件时,不少供应商都将订单的交期加上了6个月甚至是一年,这时连离打造好第一个机柜都还缺12种零部件。amd就更加不用说了,2020年到2021年是全球gpu缺货最严重的一段时间,虽然大部分都认为受影响的只有被挖矿潮波及的消费级gpu,但对于amd来说,他们在gpu加速卡零部件上的供应也遇到了问题,就拿mi250这张卡来说,且不说gpu芯片的产能供应是否充足,当时打造这一张gpu加速卡就有15种零部件需要补全。
波及的不只是cpu和gpu要知道这些短缺问题影响的不只是cpu和gpu芯片,还有不少零部件当时都处于全球缺货最糟糕的状态,比如稳压器、晶振和功率模块。为了确保能在2021年交付,慧与不得不每周甚至每天打给次级供应商,询问交期的问题。慧与和amd还组了个15人的小团队,他们唯一的工作就是寻找哪有frontier所需的零部件,或是可以替代的部件,比如去和经销商协调,询问分销商的库存,或是找其他同样由于芯片短缺而无法出货的公司,询问他们是否愿意出手现在已有的零部件。
正是因为在这样的努力下,frontier终于在去年7月将缺失的167种零部件减少至了1种,而这依然缺失的一种,就是用于打造慧与slingshot 11互联交换机刀片的晶振,它们已有的晶振只能满足63台机柜的需求,还差8000多个晶振才能完成剩下11台机柜的交付。而这时候恰好又是东南亚地区疫情肆虐,爱普生等厂商的晶振工厂停工的时期,而这类智能nic又需要超低噪声的高性能晶振。接着他们又花了3周时间才找齐这些晶振,这才在10月完成了最后一个机柜的交付。
凌晨满功耗运转的frontier / 美国橡树岭国家实验室
但即便完成了交付,相关的工作并没有结束,超算并不像大家平日里动手组装的电脑一样,一旦安装完毕就能跑出应有的性能。恰恰相反,超算系统所有部件到位后,还要经历密集的测试、优化和维护工作,于是frontier的研究人员白天就在更新软件优化系统,晚上就让frontier跑hpl之类的性能测试,最终赶在top500 6月榜单结束测试结果收集前,提交了一次成功的e级跑分。
结语其实完成这么紧凑的部署安排对frontier并不容易,固然慧与和amd有应对供应链管理方面的经验,但与此同时,和frontier几乎同样配置只是规模不同的欧洲超算lumi也面临着缺货的困境,所以这两家公司几乎是承担着双线交付任务。但好在去年下半年供应开始缓解之后,两台超算的任务也都最终完成了。
此外,这两年经历的供应链噩梦想必也影响到了其他的超算部署,就拿国内的两台e级超算来说,目前都只是单机柜的测试系统的消息时有传出,并没有正式公开完整系统的性能参数,或多或少也是被供应问题拖慢了进度,否则这个风头不可能不出来抢的。毕竟在硬件迭代如此迅速的背景下,像天河二号过去那样连续稳坐榜首数年的情况已经很难复现了,但首个e级超算的称号可是无论多少年后都抢不走的。
GDS控制系统的组成部分
关于单点液位开关在冷却系统中的相关应用浅析
Ventana推出全新数据中心处理器设计——Ventana Veyron V2
嵌入式linux对shell脚本的基本掌握
中移动TD-LTE设备招标 华为中兴并列第一
Frontier为何在部署上遇到供应问题
图形均衡器电路图分享
鸿蒙HiSpark Wi-Fi IoT套件使用感受(二)
5G进程加快,中京电子珠海项目上半年将动工建设
叠堆压电陶瓷安装时的注意事项都有哪些
ADI:第三季度收入下滑1%至30.8亿美元,努力管理供应过剩
2020年中国手机市场排名:华为第一
中国加强从韩国引进半导体材料及零部件
新唐科技NAU88C22解码器简介
五菱宏光MPV领域的老大!连长安都不放在眼里!最悲惨的还有她
电动牙刷拆解过程
智能建筑内设备的无线连接及照明解决方案
气相色谱法在环境科学中的应用
自动卷发器电源方案 12V 400MA LP2179B 芯茂微
开关电源emc电磁兼容设计与测试