Hive是分布式的、可容错的数据仓库
Hive可以将结构化的数据文件映射为数据表,执行引擎可以是MR、Spark、Tez
Hive通过类SQL查询分析数据,该SQL称为Hive QL,简称HQL。HQL支持UDF(用户自定义函数)、UDAF(用户自定义聚集函数)、UDTF(用户自定义生成表函数)
Hive适用于大量不可变数据的批处理,不适用于实时查询
Hive底层封装Hadoop,支持与Hadoop兼容的文件系统,如S3、HDFS等
1. 架构
1)用户接口
用户接口包括Web UI、Hive命令行、JDBC
2)MetaStore
存储库、表、列等元数据,建立与HDFS映射,通常选择MySQL作为存储
3)引擎
- Hive QL处理引擎:包括解释器、编译器、优化器等,将Hive QL转为查询计划
- 执行引擎: 调用MR
4)数据存储
将数据存储到HDFS或HBase
参考
【1】Hive官网
【2】Hive百度百科
【3】大数据Hadoop 3.x分布式处理实战