近年来,在全球数字化、智能化的浪潮下,智能手机、自动驾驶、数据中心、图像识别等应用推动 ai服务器市场迅速成长。根据 idc 数据,2021 年全球 ai 服务器市场规模已达到 145 亿美元,并预计 2025 年将超过 260 亿美元。
近段时间chatgpt概念的火热,更是对算力基础设施的需求起到了带动作用。宁畅副总裁兼cto赵雷此前在接受媒体采访的时候表示,chatgp的训练和部署,都需要大量智能计算数据存储以及传输资源,计算机基础设施、算力等上游技术将因此受益。
chatgpt有着多达1750亿个模型参数。在算力方面,gpt-3.5在训练阶段消耗的总算力约3640pf-days。在应用时,chatgpt仍然需要大算力的服务器支持。chatgpt的持续爆火也为aigc带来全新增量,行业对ai模型训练所需要的算力支持提出了更高要求。
宁畅是一家集研发、生产、部署、运维一体的服务器厂商,及it系统解决方案提供商。该公司早早就开始着重发力于人工智能服务器和液冷服务器。赵雷表示,公司目前在用的、在研的人工智能和液冷服务器,包括明年还将推出的浸没液冷服务器,刚好跟上算力高速增长的市场需求。公司随时准备着为客户提供合适的高算力产品和解决方案。
在人工智能服务器方面,宁畅已经推出多款产品,包括x620 g50、x660 g45、x640 g40、x620 g40。x620 g50适用于机器学习、ai推理、云计算、高性能计算等场景;660 g45是专门为深度学习训练开发的高性能计算平台;x640 g40是兼备训练与推理功能的全能型gpu服务器;x620 g40性能提升的同时支持pcie 4.0高速总线技术,完美支持nvidia各类最新型gpu加速服务,是最为理想的ai推理平台。
在液冷服务器方面,宁畅推出了三款冷板式液冷服务器,包括产品b5000 g4 lp、x660 g45 lp、r620 g40 lp,范围覆盖了高密度、通用机架以及人工智能服务器产品,可满足科学计算、ai训练、云计算等众多it应用场景,可满足用户不同需求。
作为服务器厂商需要给下游互联网客户提供怎样的产品和服务呢?对于服务器厂商来说,不只是要提供服务器硬件或者基础设施,还要有对应的服务能力。
从服务层面来看,在用户现场会关注什么呢,比如说核心业务,会关注业务的在线率,不管服务器坏不坏,整个业务的运行是要有弹性的、灵活的,不会给客户造成影响的。就以百度、微信这些业务为例,大家几乎不会看到微信不能用了,或者百度搜索不反馈结果了。
赵雷表示,对于服务器厂商来说,要做的是在服务层面能够快速响应,不管是采用现场备件模式,机房备机模式,还是驻场人员巡检的模式,都需要做到24小时的快速响应。这是纯粹的服务方面,也就是说,在互联网搭建业务连续性良好的基础上,服务器厂商能够将故障和快速维修的能力做到极致,有效地支撑客户的前端应用。
从产品层面来看,对于每个硬件子系统在设计研发过程中,都需要从易维修和低故障角度去思考如何将产品做得更好。宁畅在这方面做了很多工作:首先,现在冷却方式是影响故障率比较重要的因素,因为温度太高故障率就会高,宁畅的精密风冷和液冷的方式,能够有效地降低芯片和对应组件的故障率。
其次,其精密六维减震模式,能够有效提升硬盘的性能,降低故障率;接着是,采用dae的散热器,从散热的维度有效降低光模块的故障率。同时cpu、gpu的液冷可以有效降低cpu、gpu的故障率;通过内存的漏斗,内存的故障筛选或者在线隔离技术,有效地降低内存的故障率;另外还在板卡走线、机箱结构方面进行了优化设计。
此外还有整机bmc易管理特性,赵雷认为,任何东西不可能不坏,有毛病是不可避免的,坏了以后,如何快速通知客户或者维护人员维修时关键。bmc有一个完善的通知机制,邮件自动通知、smp远程告警、ipmi告警等。宁畅按照互联网客户的需求定制,将其融入整个机房的运维系统,出现故障以后可以第一时间通知去维修。
虽然目前国内有不少优秀的服务器、云厂商等,不过整体来看,国内的算力仍然存在瓶颈,比如,总体算力不够,算力的分布不平均。部分客户算力过剩,部分客户算力不足。或者a时间算力过剩,b时间算力不足,这是算力协调的问题。
短期来看这个问题要靠云技术解决,长期来看是要提供过剩的算力。也就是说,需要云技术去平衡协调算力不均匀的问题,还需要提供算力、算力效率等。
再比如算力成本高的问题,虽然目前每单位算力单价下降了,但是过去几年服务器的平均售价一直上涨。赵雷认为,可能算力类型单一,不太能够有效地支撑高速增长的模式,可能要有各种各样不同类型的算力。比如chatgpt,是不是可以做针对gpt模型专门的asic。算力的应用类型越窄,它的效率就会越高,越通用,效率就越低。
整体而言,过去几年在全球数字化、智能化浪潮下,市场对算力的需求不断增加。chatgp的出现更是让行业对算力提出了新的要求。国内服务器厂商在对人工智能行业提供算力支持方面已经有所准备。不过从目前的情况来看,国内在算力方面仍然存在一些瓶颈,比如算力分布不均匀,成本高等问题。后续还需业界共同去探讨解决。
【应用方案】一分钟了解半导体行业国产通讯方案
阻燃测试仪的试验以及试验原理的介绍
高通艰难转型之路,是否寻求其他收购?
苹果13有指纹解锁功能吗
QLC闪存、TLC闪存是什么?QLC闪存、TLC闪存有何区别?
AI服务器市场规模持续增加,国内存在哪些算力瓶颈?
基于Arduino和GPS模块构建女性安全手环
影响高低温试验机制冷效果的因素
华为端到端NVMe over RoCE增强方案亮相,打造高性能算力的高速公路
射极跟随器有什么性能和特点
陶瓷滤波器引脚图及特点
浅谈Latch-up(二)
数智低碳时代,一起创芯向未来
媒体实测比亚迪宋DM-i油耗 百公里仅2.6L
元件极限功率损耗与分散详解
内容消费的膨胀时代下 VR/AR将迎来挑战与机遇
谈一谈两家造车企业的电池系统
揭露中国互联网的黑暗面,或许你不想知道,但它真实存在
紫外耐气候老化试验箱的维护说明
从实验室到试验场:罗德与施瓦茨携手奥迪进行C-V2X道路交通场景测试