初识Hive

41 阅读1分钟

Hive是分布式的、可容错的数据仓库

Hive可以将结构化的数据文件映射为数据表,执行引擎可以是MR、Spark、Tez

Hive通过类SQL查询分析数据,该SQL称为Hive QL,简称HQL。HQL支持UDF(用户自定义函数)、UDAF(用户自定义聚集函数)、UDTF(用户自定义生成表函数)

Hive适用于大量不可变数据的批处理,不适用于实时查询

Hive底层封装Hadoop,支持与Hadoop兼容的文件系统,如S3、HDFS等

image.png

1. 架构

image.png

1)用户接口

用户接口包括Web UI、Hive命令行、JDBC

2)MetaStore

存储库、表、列等元数据,建立与HDFS映射,通常选择MySQL作为存储

3)引擎

  • Hive QL处理引擎:包括解释器、编译器、优化器等,将Hive QL转为查询计划
  • 执行引擎: 调用MR

4)数据存储

将数据存储到HDFS或HBase

参考

【1】Hive官网

【2】Hive百度百科

【3】大数据Hadoop 3.x分布式处理实战