数据中心SSD的未来需求

过去几年,全球数字化进程加速,不断增长的5g、人工智能、远程办公、工业数据、政务、金融和能源上云的需求,促使云服务商增加了对数据中心基础设施的投入。据第三方机构统计,全球云基础设施增长迅猛,总支出从2020年1400亿美元增长到了2021年的1900亿美元,增长了36%。
数据中心基础设施支出的增加包括对服务器和存储需求的增加,存储需求其中一大部分是企业级固态硬盘的需求。据第三方机构统计,2020年全球企业级固态硬盘市场规模约为161亿美元,到2023年有望增至305亿美元,期间年复合增长率约为24%。
市场需求的增加对于企业级ssd厂商而言无疑是利好,展望未来,在例如容量点、pcie 5.0平台适配、性能、需求、降本增效等ssd产品层面,如何应对数据中心未来的需求和挑战,则需要企业级ssd厂商对产品规划和设计进行一些思考,本文根据今年美国fms闪存峰会和ocp会议的一些内容做一些思考和分享。
1. 企业级ssd容量点的演进
按照omdia对未来企业级ssd容量点应用比例分布预测,随着存储的总容量需求提升及每gb价格的下降,大容量ssd部署比例将会逐年增加。按盘数,2022年4t及以上容量点占比27%,到2026年接近51.5%。2022年8t及以上容量占比较少14.4%,但未来预测8t及以上大容量ssd占比大幅增至38.7%。大容量ssd部署比例的提升,帮助了企业和数据中心降低ssd $/gb成本,进而帮助存储部分降低总拥有成本tco。
来源omdia:未来容量点比例分布预测
数据中心如何部署和分配不同容量的ssd盘,一般按照:
240g-480g小容量ssd:作为服务器boot启动盘,当前以m.2/2.5寸 sata ssd为主,企业级sata ssd成熟、可靠和稳定,$/gb相对较低,成本最优。
1t:作为服务器本地存储盘使用为主,用量较少。
2t-4t:作为服务器所在物理机(宿主机)上的本地硬盘使用,本地盘适用于对存储i/o性能和海量存储性价比有极高要求的业务场景,具有低时延、高随机iops、高吞吐量、高性价比等优势。
8t-16t:作为块存储云盘使用,云盘是云服务器提供的数据块级别的块存储产品,采用多副本的分布式机制,具有低时延、高性能、持久性、高可靠等性能,可以随时创建、扩容以及释放。
长江存储企业级sata ssd se005容量点为240g~1.92t,尺寸2.5寸,顺序读写分别高达540/510 mb/s,随机读写分别高达98/59 kiops,小容量点适合作为服务器启动盘使用。
长江存储se005
2. pcie 5.0 ssd和cpu平台
按照intel服务器至强cpu路线图,intel于2013年推出支持pcie 3.0接口的grantley平台,2017年推出支持pcie 3.0接口的purley平台,2020年推出支持pcie 4.0接口的whitley平台,目前这些平台均在企业级和数据中心中部署。支持pcie 5.0接口的第一代sapphire rapids延迟到2023年q1发布,随后第二代支持pcie 5.0接口的emerald rapids计划于2023年发布,第三代granite rapids、sierra forest计划于2024年发布。随着即将到来的搭配sapphire rapids cpu的服务器平台,pcie 5.0 ssd会首发出场,登上舞台,将服务器上的存储带宽提升到一个新的高度。
来源网络:intel服务器至强cpu路线图
amd在今年11/12发布了genoa系列epyc霄龙 zen 4处理器,支持128条以上pcie 5.0接口,适配pcie 5.0 ssd,并支持通过 compute express link (cxl) 进行内存扩展。同样,pcie 5.0 ssd的加载将服务器上的存储带宽提升到一个新的高度。
根据amd最新公布的服务器cpu路线图,基于zen4架构的bergamo将于2023年上半年上市,genoa-x和siena也将在2023年某个时候上市。至于amd在2024年在服务器cpu领域的路线图中最重要的部分,可能是计划在2024年底之前的某个时间将其代号为“turin”的第5代epyc处理器推向市场。
来源网络:amd服务器cpu路线图
pcie 5.0接口速度2倍于pcie 4.0接口,带宽翻倍。相应的pcie 5.0 ssd可实现顺序读写性能的翻倍和随机读写性能的大幅提升,例如长江存储企业级pcie 4.0 nvme固态硬盘pe310产品,顺序读写分别高达6200/4500 mb/s, 随机读写分别高达1000/380 kiops,到下一代pcie 5.0 ssd,顺序读写和随机读性能基本实现2倍提升。
长江存储pe310
当sapphire rapids和genoa用上pcie 5.0 ssd,硬件上数据中心的存储性能已经不再是瓶颈,性能瓶颈或许已是系统软件,如何用满和用好pcie 5.0 ssd的性能,是摆在软件面前的一道课题。但对于企业级ssd厂商而言,使用新一代nand,设计一款高性能、低功耗、合适尺寸、多容量点、满足客户各种特性需求的pcie 5.0 ssd,仍是努力要完成的工作。
3. ssd每tb性能
通常云上用户将数据存储在云盘,数据中心云盘按照性能高低和容量大小售卖,售卖价格也是按照不同的性能和容量大小制定的,性能越好容量越大价格越高。如下图,阿里essd云盘的性能分为不同的pl0-pl3等级,对用户而言,举例购买到的单盘iops计算公式 = min(1800+50*容量,1000k or 100k or 50k…),单盘吞吐量计算公式 = min(120+0.5*容量,4000 or 750 or 350…)。单盘iops和吞吐量性能随着容量增加相应按比例提升。云盘数据存储在后台ssd上,因此对ssd单位容量如每tb性能有了基本的最低要求,才能满足售卖时对用户声称的性能规格。每tb性能 = 单盘性能/容量tb数。
来源阿里云:云盘性能参数表
nand介质继续往前发展,层数不断增加,一方面带来成本和客户感知的$/gb价格不断下降,另一方面由于新nand die容量增大,对于同容量ssd而言可用nand die的个数随之减少。例如nand a die容量是64gb,随着下一代新层数的nand的来临,nand b die容量变为128gb,同容量ssd中nand die个数减少为之前的1/2,因此对nand读写的并发数减少为之前并发数的1/2,ssd的性能也降为之前的1/2,这就是导致ssd每tb性能下降的一个案例。
作为ssd供应商,当使用新的nand开发下一代ssd产品之前,解决每tb性能下降变成了要面对的问题,方法有:
1) pcie前端接口带宽不变,使用新的nand,设计其单die容量仍然同前一代nand die容量。
2) pcie前端接口带宽不变,使用新的nand,die容量增加一倍,增加单die内部plane个数,相当于增加nand读写并发数来提升ssd系统性能。例如长江存储最新的x3-9070 nand从之前的x2-9060的4个plane增加到6个plane。
3) pcie接口升级,如从pcie 4.0过渡到5.0,带宽翻倍,使用新的nand,虽然die容量增加一倍,但2x大容量ssd连续读写性能也随着pcie带宽翻倍而翻倍。
4) pcie接口升级,如pcie 4.0过渡到5.0,带宽翻倍,使用新的nand,die容量增加一倍,提升nand flash io速度来适配前端pcie翻倍的数据带宽。例如长江存储最新的x3-9070 nand支持2400 mt/s接口速度, 相较上一代nand的1600 mt/s接口速度可极大的提升ssd顺序和随机读写性能。
由此可见,为了满足数据中心存储每tb性能需求,ssd厂商当开发下一代ssd时,要站在用户角度思考如何保持不低于上一代ssd的每tb性能,提供必要的技术方法进行解决。
4. 需求标准化
数据中心对ssd的需求多样化和碎片化,不仅国内各家都不一样,国内和国外也不尽相同。同时由于其对ssd需求的某些细节机密无法对外公开,一部分ssd原厂供应商凭借和客户的良好关系可以获取,而其它供应商则无法获得,导致这些供应商的设计和客户数据中心的实际应用脱节,不符合要求。基于此,meta、microsoft、hpe、dell-emc主导和组织发布了datacenter nvme ssd specification,链接:https://www.opencompute.org/documents/datacenter-nvme-ssd-specification-v2-0r21-pdf。 现今ocp发展到了2.0版本,成为国外几家云数据中心事实上要支持的标准,同时为企业级ssd厂商理清了数据中心的关键需求。
启动盘方面,当前以成熟的 sata ssd为主,将来会往pcie nvme ssd迁移,原因:第一服务器主板和cpu会逐渐取消sata接口;第二pcie nvme ssd相较sata有更多的优势。为了统一pcie nvme启动盘的需求,ocp发布了启动盘ssd第一份spec规范:https://www.opencompute.org/documents/hyperscale-nvme-boot-ssd-specification-v1-0-pdf。这份规范为启动盘ssd厂商规定了启动盘所需要的nvme命令集、pcie接口配置、可靠性、寿命、性能、安全、调试和fa失效分析等需求。
5. ssd安全规范
ssd作为数据中心存储关键部件,其安全问题一直以来备受重视,ocp 2.0定义了数据中心对ssd的安全规范,给ssd厂商提出明确的需求:
固件升级签名校验和每次启动时使用密码学进行对称密钥身份验证,防止非法升级固件和非法篡改固件。
固件版本不能回退,只能向后更新的版本升级。
用户数据使用xts-aes-256 or aes-256加密,ssd盘支持opal v2.01,防止用户数据泄密。
ssd支持安全启动,如果遇到安全启动失败,用户将不能访问此盘。
telemetry和debug日志,实施安全审查,包括固件代码审查,防止盘上用户数据被窃取。
ssd出厂后debug端口被禁止,防止黑客利用debug端口hack ssd。
ssd vendor unique commands一般被禁止使用,只有通过一种使用非对称密码方案的质询响应才能打开。
任何和ssd安全相关的问题,必须保持私密,和客户确认前不能公开。防止外界或他人了解安全漏洞后进行hack ssd。
ssd盘上的用户数据和系统数据,需要在nand物理上分开存储。
其他……
6. 特性需求:zns等
相比较传统的ssd,近年来出现的zns ssd具有特别的几点优势:
降低ssd tco  零op nand,减少dram size。
提升寿命  减少写放大。
提高性能  主机控制ssd device-side垃圾回收,极大降低稳态qos时延和提高写入吞吐量。
数据隔离  降低多租户因不同数据访问造成的性能和时延的影响。
zns ssd在零op条件下,写放大可以做到近似接近1,相比较7% op传统ssd,写放大是其1/3。使用zns特性的qlc(3k pe) ssd其寿命(dwpd)几乎可以做到等同于传统tlc(7-10k pe) ssd的寿命,但qlc由于一个单元存储4比特位数,相较于tlc成本可以降低20%以上,因此zns+qlc ssd可以获得降本的收益。
数据中心一直在追求ssd盘的降本增效,zns结合tlc ssd的高性能和qlc ssd大容量特性,在数据中心可能的应用如下:
来源fms 2022:tlc和qlc zns ssd应用场景设想
未来,数据中心会为了应对业务应用新需求、增加新应用、降低存储总拥有成本tco,使得对于企业级ssd新特性的需求,永远不会停歇。这些新特性需求不仅仅局限于zns,而且包括了如cxl、sr-iov、stream、cmb、csd等特性,本文暂不做展开。
7. 采用qlc ssd
目前企业级tlc ssd已经主导数据中心ssd存储部件,qlc nand及ssd已经推出多年,有一些少量的部署和采用,但距离普及和规模部署还有一段距离,原因大致:一是qlc ssd相较tlc ssd价格差距没到甜蜜点;二是供应商单一;三是相应的上层软件适配和生态没有成熟;四是缺乏灯塔应用标杆项目,所以数据中心都在观望。
但随着更多的供应商提供企业级qlc ssd产品,qlc ssd价格的进一步下探,应用软件和生态的逐渐成熟,并有新的技术如zns的结合以减少qlc ssd写放大提升其寿命,以及国内外厂商部署使用qlc ssd的良好案例,像vast data带来的示范效应,数据中心越来越多的部署和采用qlc ssd将会成为趋势,毕竟够用、好用及降本是数据中心对存储一直不断追求的目标。
最后,数据中心ssd的未来需求当然不止以上这些,除了一直不变的高性能、低功耗、高可靠性和降本的需求之外,随着cpu平台和ssd相关新技术的出现以及nand介质的发展,面向数据中心的应用对存储会不断提出新的想法和新的需求,需求落地、优化和推动产品迭代,产生出新的更好的ssd产品。
长江存储一直在持续理解和消化数据中心对ssd的需求、标准和应用,布局企业级ssd产品,基于xtacking®架构的三维闪存技术nand,已经推出了包括se005、pe310等产品。借助xtacking®架构的优势,实现行业领先的i/o速度、更高的存储密度并提供高品质保障的企业级ssd产品。


Cloudera正式推出业界首个企业数据云
SpringBoot将推翻以往的Java应用开发
平滑后的DC-DC转换(稳定化)方式
写字楼的零线电流过大所产生的的危害有哪些
二层和三层工业交换机的性能参数说明
数据中心SSD的未来需求
2021骨传导耳机推荐:骨传导发声原理分析,看完你也知道怎么选
探讨国内外3D打印技术进展及产业发展趋势
微软Windows手机要被弃,以ARM平板重新出发?
华为能否重回世界舞台 可能要看英国的态度
电力电子产品是如何变化的
IDM要反击了吗
苹果新iPhone有望支持IEEE 802.11ay无线传输技术 近场传输延迟将更低且速率更高
UHF频段RFID近场天线的阻抗测量
VHF频段月面反射通信试验成功
排针和排母有什么区别
任天堂Switch国行版已在多个平台正式开售
加密货币遭遇滑铁卢 一天下跌23%
赛普拉斯USB-C 技术助力三星DeX提供多功能连接和快速充电能力
MAX16910 带复位功能的微功耗线性稳压器,用于不间断的