Hive

Hive

Hive

hive 从入门到精通

等 4 人订阅共12篇文章创建于2021-06-21

Hive 专栏上线啦

Hive 专栏数据仓库已经是企业的数据竞争的核心了，学好数据仓库对提高自己和找到一份好的工作都至关重要，但是很多人对数仓的印象还是停留在写SQL的层面,其实今天的数仓更像是一个数据平台应用,我们学习

2年前
128
1
评论

Hive 专栏数据仓库已经是企业的数据竞争的核心了，学好数据仓库对提高自己和找到一份好的工作都至关重要，但是很多人对数仓的印象还是停留在写SQL的层面,其实今天的数仓更像是一个数据平台应用,我们学习

2年前
153
3
评论

Hive事务进阶(23)

2. 事务信息解读前面我们讲了所有 INSERT 语句都会创建 delta 目录。UPDATE 语句也会创建 delta 目录，但会先创建一个 delete 目录，即先删除、后插入。delete 目录的前缀是 delete_delta；既然如此那我们的Hive 是怎么在读取…

5年前
833
5
评论

Hive 事务初识(22)

1. 背景 2. 什么是ACID，为什么要使用ACID呢？ ACID代表了数据库事务的四个特征：原子性(一个操作要么完全成功，要么失败，绝不会留下部分数据) 、一致性(一旦应用程序执行了一个操作，该操作的结果在它以后的每个操作中都是可见的)、隔离性(一个用户未完成的操作不会对其…

5年前
1.1k
6
评论

Hive从0.7.0版本开始引入了索引，目的是提高Hive表指定列的查询速度。没有索引的时候，Hive在执行查询时需要加载整个表或者整个分区(分区表并提供了相关过滤条件)，即使你加了带有谓词的查询（如'WHERE table.column = 10'）依然会加载整个表或分区并处…

5年前
1.7k
5
评论

Hive 执行引擎(20)

tez 是基于hive 之上，可以将sql翻译解析成DAG计算的引擎。基于DAG 与mr 架构本身的优缺点，tez 本身经过测试一般小任务在hive mr 的2-3倍速度左右，大任务7-10倍左右，根据情况不同可能不一样。也就是说，编译时候没有指定-Phive. 一般官方提供…

5年前
925
5
评论

Hive 视图与物化视图(19)

Hive 中的视图和 RDBMS 中视图的概念一致，都是一组数据的逻辑表示，本质上就是由一条 SELECT 语句查询的结果集组成的虚拟表，在数据库中，存放的只是视图的定义，而不存放视图包含的数据项，这些项目仍然存放在原来的基本表结构中。视图是纯粹的逻辑对象，没有关联的存储 (…

5年前
2.9k
5
评论

Hive 本地模式和严格模式(18)

0.7版本后Hive开始支持任务执行选择本地模式(local mode)大多数的Hadoop job是需要hadoop提供的完整的可扩展性来处理大数据的。在hive中运行的sql有很多是比较小的sql,数据量小,计算量小，这些比较小的sql如果也采用分布式的方式来执行,那么…

5年前
1.3k
5
评论

Hive UDF初识(16)

hive作为一个sql查询引擎，自带了一些基本的函数，比如count(计数)，sum(求和)，有时候这些基本函数满足不了我们的需求，这时候就要写hive hdf(user defined funation)，又叫用户自定义函数。需求：我们希望，将hive的workflow字段…

5年前
711
5
评论

Hive的其他语言调用(15)

metadata ：hive元数据，即hive定义的表名，字段名，类型，分区，用户这些数据。一般存储关系型书库mysql中，在测试阶段也可以用hive内置Derby数据库。 metastore ：hivestore服务端。主要提供将DDL，DML等语句转换为MapReduce，…

5年前
685
6
评论

Hive架构之HiveServer2(14)

其实我们在前面讲Hive的架构设计的时候提到过，Hive 提供的另外一个shell 客户端，也就是我们常用的hive 命令的客户端它的设计是直接启动了一个org.apache.hadoop.hive.cli.CliDriver的进程，这个进程其实主要包含了两块内容一个是提供给…

5年前
3.6k
7
评论

Hive Streaming(12)

HIVE是通过利用或扩展Hadoop的组件功能来运行的，常见的抽象有InputFormat、OutputFormat、Mapper、Reducer，还包含一些自己的抽象接口，例如SerializerDeserializer(SerDe)、用户自定义函数（UDF）和Storage…

5年前
637
5
评论