腾讯云新一代分布式存储系统发布,支持百亿甚至千亿级文件规模存储

刚刚获悉,由腾讯云大数据团队主导的ozone 1.0.0版本在apache hadoop社区正式发布。据了解,经过2年多的社区持续开发和内部1000+节点的实际落地验证,ozone 1.0.0已经具备了在大规模生产环境下实际部署的能力。
ozone 是apache hadoop社区推出的新一代分布式存储系统,它的出现满足了大量小文件的存储问题,解决了hadoop分布式文件系统在可扩展性上的缺陷。作为hadoop生态圈的一款新的对象存储系统,能够支持百亿甚至千亿级文件规模的存储。
腾讯云大数据团队ozone项目负责人陈怡表示,作为大数据领域的领导厂商,腾讯是国内一线互联网公司中最早加入社区的,目前已经在ozone项目上已经主导完成了集群网络拓扑感知的开发,以及数据写入multi-raft pipeline功能的开发。同时,主导的storagecontainermanager(scm) 高可用ha功能也正在开发中。
ozone 架构图
以集群网络拓扑感知来说,在传统的大数据构架下,有了网络拓扑结构,计算引擎的调度器可以将任务调度到离数据最近的节点来获取“数据的局部性”。即便是新兴的计算存储分离构架,同样也需要集群网络拓扑信息,来保证数据的故障容错能力和高可用性。
陈怡进一步介绍说,在ozone 的alpha 发布后,腾讯内部的大数据平台上线了ozone生产集群,承接了一部分业务的数据存储。随着数据服务体量的增加,逐渐发现ozone写入性能显现出了一定的波动和瓶颈。基于这个发现,腾讯ozone项目组设计并开发了数据写入multi-raft pipeline功能,显著的提升了ozone的写入吞吐量和性能。
此外,为了测试ozone整体的稳定性和性能,作为部署应用的先锋小队,腾讯内部部署了一个1000个数据节点的集群。进行了长达几个月的稳定性和压力测试。期间团队遇到并解决了各种oom、节点crash、性能低于预期等问题。经过全面的优化之后,单集群1000个节点现已能长时间稳定运行,并且所有的数据都校验确认正确无误。
除了1000个节点集群的测试,1.0.0版本还进行10亿个元数据对象的测试和优化,进一步解决长期困扰hdfs的大量小文件问题。目前ozone 1.0.0能够轻松支持10亿个10kb小对象的写入,同时元数据节点内存使用不超过64gb。
为了确保ozone和hive、spark、impala等计算框架的无缝对接,ozone 1.0.0进行了和hive llap、spark以及impala的集成测试。tpc-ds的测试表明,在100gb和1tb两种数据量大小下,ozone总体比hdfs有3.5%的优势。
经过不断的测试和优化,升级后的ozone 1.0.0在版本功能上有了质的跨越。除了支持 hadoop compatible filesystem、hadoop 2.x以及 hadoop3.x环境,ozone 1.0.0还兼容hadoop生态的kerberos认证体系,支持数据的用户无感知加密存放和ranger授权集成、gdpr “right to erasure”以及网络构架感知。
未来,腾讯云大数据还将发挥自身技术优势和积累,在ozone的基础上开发基于scm的新一代高性能分布式文件系统,并持续推进ozone在更多腾讯内外部业务的实践落地,部署更大规模的生产集群。同时,进一步拥抱开源,深度参与hadoop社区,提高ozone的可靠性、稳定性和性能,将其打造成新一代大数据文件和对象混合存储系统。
值得一提的是,腾讯大数据团队除了在ozone 项目上的贡献之外,近年来在开源领域的贡献正在逐步加速,目前已完成了大数据核心能力全开源。同时,还结合实际业务场景推动开源技术加速落地,通过技术实践和创新持续回馈社区贡献开源。在apache基金会的大数据项目上,腾讯已经为主流的hadoop、spark、flink等项目贡献了大量的特性和patch。


关于无人机反制枪的工作原理的简单介绍
华为实验|MPLS VPN基础实验
哈希算法的前世、今生和未来
Molex医疗业务实现强劲增长
NB-IoT的发展优势,nb-iot技术可以自组网吗
腾讯云新一代分布式存储系统发布,支持百亿甚至千亿级文件规模存储
如何通过级联LTC4370电路轻松对3个或4个电源进行负载平衡
低压差线性稳压器电路图分享
韩国的两家公司对于投资动力电池截然不同的想法
苹果iPad全新智能键盘保护套,将内置一块触控板
2022大华存储新品发布会举行,五大系列新品齐登场
国际大厂又一全面屏神机,力战小米MIX!
服务器租用的稳定性对于用户网站至关重要
LG 4K显示器不在欧洲的苹果商店出售
基于LabVIEW的探索频道望远镜控制
法雷奥推出Move Up计划 航盛电子揽获一汽集团三大奖项
PCB板用各种高密度芯片封装工艺技术解析
【每日资料精选】电机+STM32+PCB+智能机器人+新方案,你想要的都在这了!
如何选购 Roli Seaboard Block 和 Roli Seaboard Rise?干货级别经验分享
用5G网络控制无人驾驶卡车运行,大大降低经济成本