Hive 是一个用Java开发的开源框架,是Hadoop 系统的一个子组件,由Facebook 在Hadoop HDFS system 。
我们有不同的组件作为hadoop架构的一部分
- Hadoop中的HDFS基础知识
Hive可以用来访问存储在Hadoop分布式文件系统中的数据(HDFS中的文件)或存储在HBase中的数据。- Map reduce是java框架,用于并行处理数据。
Hive 可以用来处理Hadoop上的大量数据,而无需了解java map-reduce编程。
它提供了hive查询语言(HQL),它类似于结构化查询语言(sql)。
Hive 它提供了对所有查询的最小ANSI sql支持。
如果我们想支持复杂的查询功能,如聚合、自定义函数,在这种情况下,我们必须编写自定义的地图还原程序,可以很容易地插入到hive SQL库中。
如何执行Hive查询?
Hive提供了命令行接口平台,即hive shell,用于执行hive查询。你可以在shell脚本中编写查询并调用shell脚本。这个hive查询调用map到reduce作业,并查询和处理数据。
Hive的优势
- Hive是建立在Hadoop之上的,因此支持并处理Hadoop提供的所有功能,如可靠、高可用、节点故障、商品硬件。
- 数据库开发人员不需要学习Java编程来编写map-reduce程序以从Hadoop系统中检索数据。
- 数据存储在HDFS中,因此你将拥有可扩展性、冗余度等特点,而不是hive SQL语言。
- 使用hive查询数据很简单,易于使用
Hive的劣势
- Hive不适合OLAP处理,只支持OLTP处理
- 不支持子查询。
这个话题是探索什么是hadoop的一个非常基本的开始。希望你有足够的信息来开始。
结论
这是一个关于蜂巢基础知识的简短教程。