首页
AI Coding
NEW
沸点
课程
直播
活动
AI刷题
APP
插件
搜索历史
清空
创作者中心
写文章
发沸点
写笔记
写代码
草稿箱
创作灵感
查看更多
会员
登录
注册
确定删除此收藏集吗
删除后此收藏集将被移除
取消
确定删除
确定删除此文章吗
删除后此文章将被从当前收藏集中移除
取消
确定删除
编辑收藏集
名称:
描述:
0
/100
公开
当其他人关注此收藏集后不可再更改为隐私
隐私
仅自己可见此收藏集
取消
确定
hive
订阅
chengwp
更多收藏集
微信扫码分享
微信
新浪微博
QQ
4篇文章 · 0订阅
Hive使用总结
Hive是基于Hadoop的一个数据仓库工具,可以将结构化的数据文件映射为一张数据库表,并提供简单的sql查询功能,它专为OLAP设计,可以执行复杂的分析操作。本文总结了Hive的常用操作。
Hive分区表(static、dynamic)
简单理解分区表就是HDFS中文件夹分而治之,查询的时候可以进一步缩小数据搜索范围。 举个例子,订单表中承载了所有订单业务数据,由于单表查询数据压力很大,所以采用create_time字段作为分区标识,把当日的数据存在2020.06.11中,次日的数据则存储在2020.06.12…
Hive 系列(八)—— Hive 数据查询详解
为了演示查询操作,这里需要预先创建三张表,并加载测试数据。 Hive 支持使用 DISTINCT 关键字去重。 分区查询 (Partition Based Queries),可以指定某个分区或者分区范围。 Hive 支持使用 GROUP BY 进行分组聚合操作。 hive.ma…
Hive 系列(五)—— Hive 分区表和分桶表
Hive 中的表对应为 HDFS 上的指定目录,在查询数据时候,默认会对全表进行扫描,这样时间和性能的消耗都非常大。 分区为 HDFS 上表目录的子目录,数据按照分区存储在子目录中。如果查询的 where 字句的中包含分区条件,则直接从该分区去查找,而不是扫描整个表目录,合理的…