初识Hive

2023-06-20 109 阅读1分钟

Hive是分布式的、可容错的数据仓库

Hive可以将结构化的数据文件映射为数据表，执行引擎可以是MR、Spark、Tez

Hive通过类SQL查询分析数据，该SQL称为Hive QL，简称HQL。HQL支持UDF（用户自定义函数）、UDAF（用户自定义聚集函数）、UDTF（用户自定义生成表函数）

Hive适用于大量不可变数据的批处理，不适用于实时查询

Hive底层封装Hadoop,支持与Hadoop兼容的文件系统，如S3、HDFS等

1. 架构

1）用户接口

用户接口包括Web UI、Hive命令行、JDBC

2）MetaStore

存储库、表、列等元数据，建立与HDFS映射，通常选择MySQL作为存储

3）引擎

Hive QL处理引擎：包括解释器、编译器、优化器等，将Hive QL转为查询计划
执行引擎：调用MR

4）数据存储

将数据存储到HDFS或HBase

参考

【1】Hive官网

【2】Hive百度百科

【3】大数据Hadoop 3.x分布式处理实战