(文章来源:智会社)
云+ai的智能时代,传统的大数据架构已经很难满足数据分析的需求,存储逐步从计算中分离出来,以统一的云化存储池来支持海量、多样性数据的存储和分析需求。那么,大数据时代为什么需要云化存储池,云化存储池又需要具备什么样的能力呢?下面,我们就来一探究竟。
为什么需要云化存储池?现有的大数据系统多以计算存储融合、烟囱式的方式部署,一种大数据应用部署一套独立的大数据集群,这种部署方式在实际应用中遇到了一系列的问题:
首先是不同集群的计算、存储利用率差异较大,资源无法高效利用。大数据场景下,各个大数据集群业务模型不一致,有的是计算密集型,有的是存储密集型,这样就会造成有的集群计算成为瓶颈而存储空闲,有的集群存储成为瓶颈而计算空闲;云化存储池能够很好的解决该问题,实现资源的动态调配。
其次是不同集群间数据无法共享,整体分析效率降低。烟囱化部署方式下,一个大数据集群分析的结果要想被另一个集群使用,只能把数据再拷贝一份,既降低了分析效率,又浪费了存储空间;云化存储池可以实现多个大数据集群的数据共享,大幅提升多个大数据集群间协同分析的效率。最后是业务无法快速上线,不能满足日益多样化的服务需求。烟囱化部署方式下,各种业务相对独立,新业务上线需要采购新的大数据集群,上线周期经常以周甚至月计;云化架构下,计算资源和存储资源都可以随时发放,可以把新业务的上线周期缩短到分钟级。
云化存储池应该具备哪些能力?自从华为推出大数据存算分离方案,以oceanstor分布式存储作为云化存储池支撑多种大数据应用后,随着以ceph为代表的开源分布式存储的发展,市面上如雨后春笋般出现了各色的分布式存储产品,那么是否每款分布式存储产品都能作为云化存储池使用呢?
结论肯定不是的,分布式存储只是冰山露出在海面上的一角,要想成为大数据的云化存储池,这款分布式存储还要具备多方面的内涵。下面,我们就来一探“云化存储池”号冰山的内部构成。
一套云化存储池对接多个计算集群,不同的计算集群由于部门归属不同、处理的业务不同,势必要求使用独立的命名空间和鉴权,从而实现数据访问的逻辑隔离,这就要求云化存储池具备多命名空间的能力;计算和存储分离,这就要求存储具备和计算集群统一鉴权的能力。
oceanstor分布式存储支持创建多个命名空间,并支持跟计算集群的统一鉴权。物理空间共享的基础上,每个命名空间跟对应的计算集群采用统一的kerberos、ladp鉴权服务器,同时各命名空间之间的鉴权和数据访问又可以做到逻辑隔离,从而有效支撑多种大数据业务共用云化存储池。
一套云化存储池对接多个计算集群,除鉴权和访问隔离外,还要考虑不同计算集群的资源抢占问题。一个计算集群占用的存储空间过高,或者消耗的性能过高,必然影响到其他计算集群的正常运行,这就要求云化存储池具备一定的配额和qos能力。oceanstor分布式存储支持租户级和命名空间级配额,可以有效控制不同层级用户的空间占用;同时支持精细化控制的qos能力,可以针对不同优先级的租户和命名空间提供差异化的服务,从而保障高优先级的业务能够获得最优的服务质量。
一套云化存储池对接多个计算集群,不同大数据计算集群使用的hadoop组件可能是不同的,这就要求云化存储池不仅能提供hdfs接口,还要保证对不同hadoop组件的兼容性。以ceph为代表的开源分布式存储,多使用s3a接口来实现hdfs协议的对接,但s3a不支持append、flush()、hflush()等接口,这就导致很多hadoop组件对接上均存在重要限制。
oceanstor分布式存储对外可提供原生hdfs接口,无缝兼容fusioninsight、cloudra、hortonworks等主流大数据平台的不同组件,为对接不同计算集群的多样化组件奠定了坚实基础。
为什么区块链行业的增长已经容不下原教旨主义了
Apollo“ACE交通引擎”推动着技术强国、交通强国向前发展
常用数据清洗的SQL对比版
低成本高性能2.4GHz无线收发芯片的性能详解
紫光虎贲T710芯片领先骁龙855 Plus,暂居世界第一
如何基于分布式存储来构建大数据时代的云服务
宇凡微2.4g芯片合封单片机,高集成更具性价比
生活中的传感器
关于PCB布线的八个经典问答
小鹏汽车与支付宝合作开发车载支付,智能汽车体验更加丰富
iPhoneX定价太高,或推出廉价版,配置依旧只要5000了,你买吗?
V23行云设计:崭新视界,全面升级!
机器人及核心部件国产化正在加速到来
登临科技加入飞桨硬件生态共创计划
酷开电视Max 86" 巨幕出击潮玩到底
MAX8532低噪声、低压差、200mA线性稳压器,UCSP封装
一文详解匹配网络拓扑设计
浅谈锂电池产业链 锂电池的应用领域
红外镜头技术的应用
东芝硬盘为数据存储而生