hive - elevenhome的收藏集 - 掘金

hive

更多收藏集

11篇文章 · 0订阅

Hive 系列（八）—— Hive 数据查询详解

为了演示查询操作，这里需要预先创建三张表，并加载测试数据。 Hive 支持使用 DISTINCT 关键字去重。分区查询 (Partition Based Queries)，可以指定某个分区或者分区范围。 Hive 支持使用 GROUP BY 进行分组聚合操作。 hive.ma…

heibaiying
6年前
5.6k
3
2

Hive 系列（四）—— Hive 常用 DDL 操作

默认行为是 RESTRICT，如果数据库中存在表则删除失败。要想删除库及其中的表，可以使用 CASCADE 级联删除。通过指定一个或者多个列经常出现的值（严重偏斜），Hive 会自动将涉及到这些值的数据拆分为单独的文件。在查询时，如果涉及到倾斜值，它就直接从独立文件中获取数据…

heibaiying
6年前
3.5k
1
评论

Hive 系列（三）—— Hive CLI 和 Beeline 命令行的基本使用

直接使用 Hive 命令，不加任何参数，即可进入交互式命令行。在不进入交互式命令行的情况下，可以使用 hive -e 执行 SQL 命令。用于执行的 sql 脚本可以在本地文件系统，也可以在 HDFS 上。可以使用 --hiveconf 设置 Hive 运行时的变量。使…

heibaiying
6年前
5.1k
2
评论

Hive 系列（一）—— Hive 简介及核心概念

Hive 是一个构建在 Hadoop 之上的数据仓库，它可以将结构化的数据文件映射成表，并提供类 SQL 查询功能，用于查询的 SQL 语句会被转化为 MapReduce 作业，然后提交到 Hadoop 上运行。执行延迟高，不适合做数据的实时处理，但适合做海量数据的离线处理。…

heibaiying
6年前
2.8k
8
2

从0开始学大数据-Hive性能优化篇

在工作中使用hive比较多，也写了很多HiveQL。这里从三个方面对 Hive 常用的一些性能优化进行了总结。分区表是在某一个或者几个维度上对数据进行分类存储，一个分区对应一个目录。如果筛选条件里有分区字段，那么 Hive 只需要遍历对应分区目录下的文件即可，不需要遍历全局…

dxer0730
6年前
2.8k
12
评论

从0开始学大数据-Hive性能优化篇

Hive 系列（七）—— Hive 常用 DML 操作

加载的目标可以是表或分区。如果是分区表，则必须指定加载数据的分区；加载文件的格式必须与建表时使用 STORED AS 指定的存储格式相同。 Hive 0.13.0 开始，建表时可以通过使用 TBLPROPERTIES（“immutable”=“true”）来创建不可变表 (i…

heibaiying
6年前
1.9k
1
评论

Hive 系列（六）—— Hive 视图和索引

Hive 中的视图和 RDBMS 中视图的概念一致，都是一组数据的逻辑表示，本质上就是一条 SELECT 语句的结果集。视图是纯粹的逻辑对象，没有关联的存储 (Hive 3.0.0 引入的物化视图除外)，当查询引用视图时，Hive 可以将视图的定义与查询结合起来，例如将查询中的…

heibaiying
6年前
8.5k
1
评论

Hive 系列（五）—— Hive 分区表和分桶表

Hive 中的表对应为 HDFS 上的指定目录，在查询数据时候，默认会对全表进行扫描，这样时间和性能的消耗都非常大。分区为 HDFS 上表目录的子目录，数据按照分区存储在子目录中。如果查询的 where 字句的中包含分区条件，则直接从该分区去查找，而不是扫描整个表目录，合理的…

heibaiying
6年前
5.1k
1
评论

Hive 系列（二）—— Linux 环境下 Hive 的安装部署

下载所需版本的 Hive，这里我下载版本为 cdh5.15.2。下载地址：http://archive.cloudera.com/cdh5/cdh/5/ 1. hive-env.sh 2. hive-site.xml 将 MySQL 驱动包拷贝到 Hive 安装目录的 lib …

heibaiying
6年前
1.9k
1
评论

压缩：GZIP,LZO,Snappy,Bzip2... hive.exec.reducers.bytes.per.reducer 这个参数控制一个job会有多少个reducer来处理，依据的是输入文件的总大小。默认1GB。（即每个reduce任务处理的数据量。） hive.ex…

Meet相识
7年前
2.5k
6
评论