大数据入门分享:Hive应用场景

在大数据的发展当中,大数据技术生态的组件,也在不断地拓展开来,而其中的hive组件,作为hadoop的数据仓库工具,可以实现对hadoop集群当中的大规模数据进行相应的数据处理。今天我们的大数据入门分享,就主要来讲讲,hive应用场景。
关于hive,首先需要明确的一点就是,hive并非数据库,hive所提供的数据存储、查询和分析功能,本质上来说,并非传统数据库所提供的存储、查询、分析功能。
hive数据仓库工具将结构化的数据文件映射为一张数据库表,并提供sql查询功能,能将sql语句转变成mapreduce任务来执行。通过类sql语句实现快速mapreduce统计,使mapreduce编程变得更加简单易行。
hive应用场景
总的来说,hive是十分适合数据仓库的统计分析和windows注册表文件。
hive在hadoop中扮演数据仓库的角色。hive添加数据的结构在hdfs(hive superimposes structure on data in hdfs),并允许使用类似于sql语法进行数据查询。
hive更适合于数据仓库的任务,主要用于静态的结构以及需要经常分析的工作。hive与sql相似促使其成为hadoop与其他bi工具结合的理想交集。
hive使用
hive在hadoop之上,使用hive的前提是先要安装hadoop。
hive要分析的数据存储在hdfs,hive为数据创建的表结构(schema),存储在rdms(relevant database manage system关系型数据库管理系统,比如mysql)。
hive构建在基于静态批处理的hadoop之上,hadoop通常都有较高的延迟并且在作业提交和调度的时候需要大量的开销。因此,hive并不能够在大规模数据集上实现低延迟快速的查询,例如,hive在几百mb的数据集上执行查询一般有分钟级的时间延迟。
hive查询操作过程严格遵守hadoop mapreduce的作业执行模型,hive将用户的hiveql语句通过解释器转换为mapreduce作业提交到hadoop集群上,hadoop监控作业执行过程,然后返回作业执行结果给用户。hive的最佳使用场合是大数据集的批处理作业,例如,网络日志分析。
hive优缺点
优点:
操作接口采用类sql语法,提供快速开发的能力(简单、容易上手)。
hive的执行延迟比较高,因此hive常用于数据分析,对实时性要求不高的场合。
hive优势在于处理大数据,对于处理小数据没有优势,因为hive的执行延迟比较高。
hive支持用户自定义函数,用户可以根据自己的需求来实现自己的函数。
缺点:
1.hive的hql表达能力有限
(1)迭代式算法无法表达递归算法
(2)数据挖掘方面不擅长(数据挖掘和算法机器学习)
2.hive的效率比较低
(1)hive自动生成的mapreduce作业,通常情况下不够智能化
(2)hive调优比较困难,粒度较粗(快)
关于大数据培训,hive应用场景,以上就为大家做了大致的介绍了。在大数据应用场景下,hive更多是作为hadoop的一个数据仓库工具,并不直接存储数据,但是却不可或缺。


浙江移动5G+AR电商云将引爆下一代电商革命的导火线
夜间照明技术的基本概念和相关术语解析
74ls161中文资料_74ls161计数器功能及其应用
熔断器的型号及分类
基于IntelPXA263的智能移动信息终端设计
大数据入门分享:Hive应用场景
魅族运动耳机ep51怎么样 品质优良佩戴舒适
Broadcom收购Teknovus公司,获得EPON技术
源创通信BPI-M1+ 开源硬件开发板介绍
74ls164内部结构及其应用(74ls164引脚图及功能_工作原理)
疑似vivo新机iQOO 7智能手机3C认证信息曝光
绷带拉伸强度测试仪的技术特征及技术参数的说明
小米9 Pro 5G版将搭载骁龙855 Plus平台起售价至少在3500元左右
成都新能源汽车租赁集聚点指日可待
精确的频率测量和时间测量
阿里巴巴推中文智能音箱名称曝光:将命名“天猫精灵”?
基于51单片机的光照强度系统设计
分析师:苹果的纯电动汽车将成为“高科技的集合体”
唯乐手环Now2评测 使用体验非常不错
2017年中国制造业前景 制造业限产或成大势所趋