Hive基础入门（一）提高效率，用空间换时间。此层数据无任何更改，直接沿用外围系统数据结构和数据，不对外开放；为临时存

数据库与数据仓库

数据库

数据仓库

数据仓库的分层架构

提高效率，用空间换时间。

比如：点击流日志（行为日志）、数据库数据、文档数据、爬虫

比如：聚合数据、多维数据模型、业务模型、细节数据

比如：报表展示、即席查询、数据分析、数据挖掘

一个基于Hadoop的数据仓库工具。本质是将SQL转换为MapReduce的任务进行运算，即Hive是一个MapReduce的客户端。

优点

缺点

用户接口：
- CLI
- JDBC/ODBC
- Web UI（eg：HUE）
元数据：Metastore
- 包括：表名、表所属的数据库（默认是default）、表的拥有者、列/分区字段、表的类型（内部表与外部表）、表的数据所在目录等
- 默认存储在自带的Derby数据库中
解析器
编译器
优化器
执行器
Hadoop集群

复合数据类型 | 类型 | 描述 | | :------: | :--------------------------------------------: | | array | 一组有序的字段，字段类型必须相同 array(元素1，元素2) |
| map | 一组无序的键值对 map(k1,v1,k2,v2) | | struct | 一组命名的字段，字段类型可以不同 struct(元素1，元素2) |

desc formatted table_name;

内部表

#内部表改为外部表
alter table table_name set tblproperties('EXTERNAL'='TRUE');
#外部表改为内部表
alter table table_name set tblproperties('EXTERNAL'='FALSE');