hive - chengwp的收藏集 - 掘金

hive

更多收藏集

4篇文章 · 0订阅

Hive使用总结

Hive是基于Hadoop的一个数据仓库工具，可以将结构化的数据文件映射为一张数据库表，并提供简单的sql查询功能，它专为OLAP设计，可以执行复杂的分析操作。本文总结了Hive的常用操作。

千早群像
7年前
2.2k
11
评论

Hive分区表（static、dynamic）

简单理解分区表就是HDFS中文件夹分而治之，查询的时候可以进一步缩小数据搜索范围。举个例子，订单表中承载了所有订单业务数据，由于单表查询数据压力很大，所以采用create_time字段作为分区标识，把当日的数据存在2020.06.11中，次日的数据则存储在2020.06.12…

XinXing
5年前
3.2k
2
评论

Hive 系列（八）—— Hive 数据查询详解

为了演示查询操作，这里需要预先创建三张表，并加载测试数据。 Hive 支持使用 DISTINCT 关键字去重。分区查询 (Partition Based Queries)，可以指定某个分区或者分区范围。 Hive 支持使用 GROUP BY 进行分组聚合操作。 hive.ma…

heibaiying
6年前
5.6k
3
2

Hive 系列（五）—— Hive 分区表和分桶表

Hive 中的表对应为 HDFS 上的指定目录，在查询数据时候，默认会对全表进行扫描，这样时间和性能的消耗都非常大。分区为 HDFS 上表目录的子目录，数据按照分区存储在子目录中。如果查询的 where 字句的中包含分区条件，则直接从该分区去查找，而不是扫描整个表目录，合理的…

zed
5年前
1.1k
3
1