深度解析数据存储技术发展趋势

ai大模型已超出人类想象的速度,将我们带入智能世界。算力、算法、数据构成了ai的三要素。算力、算法是ai大模型时代的工具,数据的规模和质量才真正决定了ai智能的高度。数据存储将信息变为语料库、知识库,正在和计算一起成为最重要的ai大模型基础设施。
本文来自“《迈向智能世界白皮书2023版(合集)》”。高可靠、高性能、共享的数据存储,成为以oracle为代表的数据库的最佳数据基础设施。面向未来,对企业数据存储进行了如下展望:
ai大模型将ai带入新的发展阶段。ai大模型需要更高效的海量原始数据收集和预处理,更高性能的训练数据加载和模型数据保存,以及更加及时和精准的行业推理知识库。以近存计算、向量存储为代表的ai数据新范式正在蓬勃发展。
大数据应用经历了历史信息统计、未来趋势预测阶段,正在进入辅助实时精准决策、智能决策阶段。以近存计算为代表的数据新范式,将大幅提升湖仓一体大数据平台的分析效率。
以开源为基础的分布式数据库,正在承担越来越关键的企业应用,新的分布式数据库+共享存储的高性能、高可靠架构正在形成。
多云成为企业数据中心新常态,企业自建数据中心和公有云形成有效互补。云计算的建设模式从封闭全栈走向开放解耦,从而实现应用多云部署、数据/资源集中共享。
ai大模型应用聚集海量企业私域数据,数据安全风险剧增。构建包括存储内生安全在内的完整数据安全体系,迫在眉睫。
ai大模型推动数据中心的计算、存储架构从以cpu为中心走向以数据为中心,新的系统架构、生态正在重新构建。
ai技术正在越来越多地融入在数据存储产品及其管理,从而大幅改善数据基础设施的sla水平。
1、ai大模型
ai的发展远超过预期,2022年末,当openai发布chatgpt时,没有人能想到,ai大模型接下来将为人类社会带来历史性变革。
简单来说,ai大模型时代的到来,存储作为数据的关键载体,需要在三个方面演进,即海量非结构化数据的治理、10倍的性能提升、存储内生安全。在满足eb级海量扩展性的基础之上,需要满足百gbps级的带宽和千万级iops,实现10倍以上的性能提升。
企业在使用ai大模型、hpc、大数据时均需要丰富的原始数据,它们的来源是相同的,均是企业所积累的生产交易数据、科研实验数据和用户行为数据。因此,大模型采用和hpc、大数据同源的建设模式是最经济高效的,实现一份数据在不同环境中协同工作。
全闪存存储将带来性能大幅提升,加快ai大模型开发落地的速度;以数据为中心的架构可以带来硬件资源的解耦与互联,加速数据的按需流动;数据编织、向量存储与近存计算等新兴数据处理技术,将最大程度降低企业整合数据、使用数据的门槛,满足资源的高效利用,降低行业接入ai大模型的难度;存储内生安全体系将保护企业核心私密数据资产,让企业更加放心地使用ai大模型。
2、大数据
大数据应用的发展可以描述为传统数据应用、预测分析和主动决策三个阶段。
传统数据仓库时代:企业通过数据仓库构建面向主题的、可随时间变化的数据集合,从而实现对历史数据进行准确的描述和统计,为分析决策服务,但仅能处理tb级结构化数据。
传统数据湖时代:企业使用hadoop技术构建数据湖,处理结构化、半结构化数据,实现基于历史数据预测未来的发展趋势。这个阶段形成了数据湖和数据仓库并存的“烟囱”架构,数据需要在数据湖和数据仓库之间流转,因而无法实现实时决策、主动决策。
湖仓一体时代:企业开始尝试从it堆栈优化上寻找实时决策、主动决策解决方案,将大数据平台快速推向湖仓一体的新架构。其核心举措是与存储厂商联合创新,将大数据it堆栈存算解耦,以数据湖存储实现数据湖和数据仓库共享同一份数据,无需在数据湖和数据仓库间进行数据流转,从而实现实时、主动决策。
3、分布式数据库
开源数据库mysql和postgresql占据全球数据库市场格局top2。开源数据库正在重构企业核心系统。同时为确保业务平稳运行,分布式数据库存算分离架构正在成为事实标准。
目前,全球主要银行均已通过存算分离架构分布式数据库建设新核心系统,亚马逊aurora、阿里polardb、华为gaussdb、腾讯tdsql等主要新型数据库厂商均已将其架构转向存算分离,存算分离架构已经成为分布式数据库建设的事实标准。
4、云原生
企业云计算基础设施已经从单云走向多云。不论哪一朵云都无法同时满足企业所有对应用与成本的诉求。因此,89%的企业选择建设多个公有云和私有云并存的多云it架构。
目前基础设施面向多云打造的关键能力大致可分为两类。第一类是使能数据跨云流动,如华为和netapp存储支持数据跨云分级、跨云备份能力,使数据始终使用性价比最高的存储服务;另一类是数据跨云管理,让用户通过全局数据视图把握数据总体情况,并将数据调度到产生价值最大的应用中。
企业采用开放解耦架构建设,让硬件资源可被多个云共享,数据可在多个云间按需流动,方可真正发挥多云架构优势。
从硬件、平台到应用,最优的服务往往来自不同供应商,因此通过开放解耦的建设方式企业能搭建最优的it堆栈。以ai为例。当前市面上最为火热的ai大模型供应商,如openai、meta等,其硬件基础设施能力远不如nvidia、ddn、华为等it巨头。没有任何一个厂商能够提供端到端的最优ai训练/推理方案,因此企业在搭建自己的ai训练/推理集群时,会选择开放解耦的架构,选择最优的硬件和训练/推理模型。
5、非结构化数据
随着5g、云计算、大数据、ai、高性能数据分析(hpda)等新技术、新应用的蓬勃发展,企业非结构化数据快速增长,如视频,语音,图片,文件等,容量正在从pb到eb级跨越。例如,一台基因测序仪每年产生数据达到8.5pb,某运营商集团每天平均处理数据量达到15pb,一颗遥感卫星每年采集数据量可以达到18pb,一辆自动驾驶训练车每年产生训练数据达到180pb。
首先需要让数据“存得下”:以最低的成本、最小的机房空间、最低的功耗存下更多的数据。
其次要让数据都要“流得动”:数据中心间和数据中心内的数据需要根据策略按需高效流动。
最后还需要让数据“用得好”:企业的视频、音频、图片、文本等多种混合负载应用都能满足要求。
6、存储内生安全
数据作为ai的根基,其重要性进一步凸显,数据的安全就是企业核心资产的安全。据splunk公司发布的《2023年安全现状报告》显示,超过52%的组织遭受了恶意攻击导致数据泄露,66%的机构遭受勒索软件攻击,数据安全的重要性正在不断上升。
数据在产生、采集、传输、使用、销毁的全生命周期处理过程中始终离不开存储设备。存储作为数据的最终载体,数据的“保险箱”,拥有近数据的保护能力,近介质的控制能力,在数据安全防护、数据备份与恢复、数据安全销毁等领域有不可替代的作用。
存储内生安全体系通过先天的架构与设计,不断增强存储的安全能力,包含两个方面:存储设备自身的安全能力、存储的数据安全防护能力。
7、全场景闪存
根据市场统计到2022年,ssd的市场份额和出货数量已经是机械盘的2倍以上,占比超过了65%。我们有理由相信企业正在迎来全面闪存化的时代。
企业级 ssd 的核心组成部分——nand颗粒,很大程度上决定其成本。而3d nand堆叠层数升级与qlc颗粒的应用,推动全闪存物料成本不断降低。目前,主流颗粒厂商量产的3dnand颗粒堆叠层数已经达到176l,并纷纷给出200层以上设计路标,比2018年提升接近2倍。除了堆叠层数,在颗粒类型方面,tlc颗粒已经成为企业级ssd主流选择,qlc ssd也已登上舞台。
更多ssd内容,参考“2023年计算机ssd固态硬盘词条报告”,“企业级ssd技术和行业发展(汇总) ”、“《中国企业级ssd行业技术合集》”、“《ssd技术白皮书系列》”和“《ssd介质技术》”。
8、以数据为中心的架构
近年来,ai和实时大数据分析应用蓬勃发展,以cpu为主的算力向cpu+gpu+npu+dpu的多样化算力发展。
未来,随着ai、大数据等应用更高的性能时延要求、cpu性能增速放缓,在服务器架构演进为composable架构的同时,存储架构也将演进为以数据为中心的composable架构,从而大幅提升存储系统的性能。存储系统的多样化处理器(cpu、dpu)、内存池、闪存池、容量盘池,将通过新型数据总线互联,从而实现数据进入存储系统之后可以直接存放至内存或闪存,避免cpu成为数据访问的瓶颈。
9、ai赋能存储
基于传统ai实现性能、容量、备件故障等趋势提前预测,降低异常发生概率;在复杂的异常处理场景,存储管理系统可基于ai大模型快速强化交互逻辑,辅助人工快速定位问题,从而大幅缩短故障处理周期。
10、存储绿色节能
在“碳达峰、碳中和”大背景下,绿色低碳成为数据中心的重要发展方向。存储能耗在数据中心占比超过30%。因此,除了降低pue之外,降低以存储为代表的it设备能耗,对于促进数据中心零碳排至关重要。
通过多协议融合和孤岛融合,实现多合一,提升资源利用率。一套存储可支持文件、对象、hdfs等多种协议,满足多样化需求,整合多种类型存储;同时通过融合资源池,实现资源池化,从而提升利用率。
存储有83%的能耗来自于存储介质,在相同容量下,ssd相比机械硬盘的能耗降低70%,空间占用节省50%。通过大容量ssd和高密硬盘框,提升存储容量功耗占比,减少相同数据量附带产生的数据处理和存储能耗,进而推动存储单位容量能耗降低,用更小的空间存储更大的容量。


解读分析亚洲各个国家的5G发展现状及对比
集电极和发射极的判别
星型结构拓扑的优缺点有哪些?
控制类寄存器的两种实现方式
华为禁令生效后中芯国际会给华为供货
深度解析数据存储技术发展趋势
蓝牙耳机推荐,目前最值得入手的蓝牙耳机
中科亿海微亮相CCIG 2023 中国图象图形大会
2022中关村国际前沿科技创新大赛-国际第三代半导体专题赛•决赛云端顺利举行
RFID技术和ZETA技术有哪些不同?
Systemverilog event的示例
泰克示波器和电流探头评估高速DCDC转换器电感
dsp音频处理器的作用
RS232转profinet网关扫码枪自由口与1500程序对比
影响软包锂电池热封工艺的因素有哪些?
U5141-C28885-500PA压力传感器正确安装方式
半导体业:B值回升至0.95 下游补库存需求待确认
维护速度快如风,激光切割设备远程维护方案!
为什么变压器绝缘电阻会偏低
什么是AVC编码? 简述H.264概念和发展