google 为了应对快速增长的数据处理,开发了一套算法。后来有人根据算法的思想,开发出开源的软件框架 ,就是hadoop, 随着越来越多的组织和个人开发者在框架开发中不断贡献改进,hadoop 已经形成一套家族产品,成为当下最成功最流行的分布式大数据处理框架。
hadoop 受到很多组织青睐,是因为有两大因素:
一、超大规模的数据处理, 通常 10tb 以上;
二、超复杂的计算工作,例如统计和模拟。
hadoop 在很多应用场景中发挥着主要功用,如大规模统计、etl数据挖掘、大数据智能分析、机器学习等。
hadoop 和 传统sql关系数据存储 有什么区别?
hadoop 读时模式(schema on read),传统sql是 写时模式(schema on write).传统数据库存储时对数据进行检查,需要检查表结构定义等必须匹配后才让存储(write),否则就报错。hadoop 是你拿过任何数据格式我都给你存储,只要你给我读取这些数据的接口程序,在用到这些数据时(read),才会检查。
左边是schema on read ,右边是schema on write。 右边数据格式不对会报错,左边更关注读数据的规则。hadoop 是分布式数据库, 而大部分sql是集中存储的。
举例来讲: 微信后台有可能数千个服务器节点用于存储微信聊天记录,假设我的聊天记录分布在60个不同的服务节点上。而对于关系数据库,会集中在多个表空间中。
假如我搜索我的一个聊天记录,hadoop 会把搜索任务分成多个均衡负载的搜索任务运行在60个节点上。而传统sql会逐个搜索存储空间,直到全部遍历。如果没有完全搜索完,会返回搜索结果吗? hadoop的回答是yes,而传统sql会是no。
hadoop 家族的产品 hive,可以让不怎么懂sql 的客户开发出基本上和sql同样功能的查询
hadoop 的数据写入、备份、删除操作
一、数据写入
在客户端想hdfs写数据的过程中,主要分为下面几个过程:
客户端将数据缓存到本地的一个临时文件中;
当这个本地的临时文件到达hdfs中的块大小限制时,客户端访问namenode,namenode将文件的名字插入到hdfs命名空间中,并且为其分配相应的存储位置;
namenode与分配好的datanode进行沟通,确定存储位置可用,然后将这些存储位置信息返回给客户端;
客户端将本地的临时文件传输到datanode中;
当写文件结束,临时文件关闭时,会将已有的临时数据传输到datanode中,并告知namenode写数据完成;
namenode将该文件改变为持久的一致性状态,也就事将该操作记录到日志editlog中。如果此时namenode宕掉,那么文件信息丢失。
上面的过程主要特点是写入数据先缓存到本地,在达到块大小限制时才与datanode通信进行传输。这样的好处在于避免在客户写数据的过程中持续占用网络带宽,这对于处理多用户大量数据的写入是非常关键的。
二、数据备份
数据的写入同时伴随这数据块的备份,过程如下:
在客户端临时数据达到一个块时,与namenode通信,得到一组datanode地址,这些datanode就是用来存储该数据块的;
客户端首先将该数据块发送到一个datanode上,datanode在接受时是以4kb为单位进行,我们把这些小单位称为缓存页(参考了linux管道文件的说法);
对于第一个接到数据的datanode,它把缓存页中的数据写入自己的文件系统,另一方面,它又将这些缓存页传送给下一个datanode;
重复3的过程,第二个datanode又将缓存页存储在本地文件系统,同时将它传送给第三个datanode;
如果hdfs中的备份数目设置为3,那么第三个datanode就只需要将缓存页存储即可。
上面的过程中,数据块从客户端流向第一个datanode,然后再流向第二个,从第二个再到第三个,整个是一个流水线过程,中间不会有停顿。所以hdfs将它称为replication pipelining。
为什么不采取客户端同时向多个datanode写数据的方法呢?其实从pipelining这个称呼上就可以猜到,客户端和datanode采用的缓存文件都是管道文件,即只支持一次读取。
三、 数据删除
hdfs中的数据删除也是比较有特点的,并不是直接删除,而是先放在一个类似回收站的地方(/trash),可供恢复。
对于用户或者应用程序想要删除的文件,hdfs会将它重命名并移动到/trash中,当过了一定的生命期限以后,hdfs才会将它从文件系统中删除,并由namenode修改相关的元数据信息。并且只有到这个时候,datanode上相关的磁盘空间才能节省出来,也就是说,当用户要求删除某个文件以后,并不能马上看出hdfs存储空间的增加,得等到一定的时间周期以后(现在默认为6小时)。
对于备份数据,有时候也会需要删除,比如用户根据需要下调了replicaion的个数,那么多余的数据备份就会在下次beatheart联系中完成删除,对于接受到删除操作的datanode来说,它要删除的备份块也是先放入/trash中,然后过一定时间后才删除。因此在磁盘空间的查看上,也会有一定的延时。
那么如何立即彻底删除文件呢,可以利用hdfs提供的shell命令:bin/hadoop dfs expunge清空/trash。
数智芯帮助传统制造型企业实现移动办公和数字化管控的精益型管理模式
诺基亚6高价低配让国人失望,诺基亚8能否挑起大梁重新崛起?
四维图新旗下杰发科技与普华基础软件达成战略合作 共同探索高性能车规级芯片应用
FPGA系统中设计数字表示介绍
专业销售日本村田muRata品牌射频探针与射频测试线
Hadoop的数据写入、备份、删除操作
无铅锡膏变干的原因有哪些?
深度学习的典型应用是图像分类问题
三星Galaxy S20系列更多细节曝光 开启120Hz需要降低分辨率至FHD
基于容量证明的共识机制PoC介绍
“飞入寻常百姓家”前,智能驾驶还缺点什么?
FREETALK Everyman 高清网络摄像头现面向 S
22年零跑C11充电时空气开关跳闸
C语言中条件编译详解
基于NiosII的高精度数控直流稳压电源设计
美光表示下半年旗舰手机内存有望提升到16GB
一文读懂AW516x zigbee如何自组网功能
移动电源电芯优缺点分析
谷歌生命科学子公司Verily将关闭上海办事处,退出中国
实战eBPF kprobe函数插桩