首页
AI Coding
NEW
沸点
课程
直播
活动
AI刷题
APP
插件
搜索历史
清空
创作者中心
写文章
发沸点
写笔记
写代码
草稿箱
创作灵感
查看更多
会员
登录
注册
Hive
刘不二
创建于2021-06-21
订阅专栏
hive 从入门到精通
等 3 人订阅
共12篇文章
创建于2021-06-21
订阅专栏
默认顺序
默认顺序
最早发布
最新发布
Hive 专栏上线啦
Hive 专栏 数据仓库已经是企业的数据竞争的核心了,学好数据仓库对提高自己和找到一份好的工作都至关重要,但是很多人对数仓的印象还是停留在写SQL的层面,其实今天的数仓更像是一个数据平台应用,我们学习
Hive 专栏
Hive 专栏 数据仓库已经是企业的数据竞争的核心了,学好数据仓库对提高自己和找到一份好的工作都至关重要,但是很多人对数仓的印象还是停留在写SQL的层面,其实今天的数仓更像是一个数据平台应用,我们学习
Hive事务进阶(23)
2. 事务信息解读 前面我们讲了所有 INSERT 语句都会创建 delta 目录。UPDATE 语句也会创建 delta 目录,但会先创建一个 delete 目录,即先删除、后插入。delete 目录的前缀是 delete_delta; 既然如此那我们的Hive 是怎么在读取…
Hive 事务初识(22)
1. 背景 2. 什么是ACID,为什么要使用ACID呢? ACID代表了数据库事务的四个特征:原子性(一个操作要么完全成功,要么失败,绝不会留下部分数据) 、一致性(一旦应用程序执行了一个操作,该操作的结果在它以后的每个操作中都是可见的)、隔离性(一个用户未完成的操作不会对其…
Hive索引(21)
Hive从0.7.0版本开始引入了索引,目的是提高Hive表指定列的查询速度。没有索引的时候,Hive在执行查询时需要加载整个表或者整个分区(分区表并提供了相关过滤条件),即使你加了带有谓词的查询(如'WHERE table.column = 10')依然会加载整个表或分区并处…
Hive 执行引擎(20)
tez 是基于hive 之上,可以将sql翻译解析成DAG计算的引擎。基于DAG 与mr 架构本身的优缺点,tez 本身经过测试一般小任务在hive mr 的2-3倍速度左右,大任务7-10倍左右,根据情况不同可能不一样。 也就是说,编译时候没有指定-Phive. 一般官方提供…
Hive 视图与物化视图(19)
Hive 中的视图和 RDBMS 中视图的概念一致,都是一组数据的逻辑表示,本质上就是由一条 SELECT 语句查询的结果集组成的虚拟表,在数据库中,存放的只是视图的定义,而不存放视图包含的数据项,这些项目仍然存放在原来的基本表结构中。 视图是纯粹的逻辑对象,没有关联的存储 (…
Hive 本地模式和严格模式(18)
0.7版本后Hive开始支持任务执行选择本地模式(local mode)大多数的Hadoop job是需要hadoop提供的完整的可扩展性来处理大数据的。 在hive中运行的sql有很多是比较小的sql,数据量小,计算量小 ,这些比较小的sql如果也采用分布式的方式来执行,那么…
Hive UDF初识(16)
hive作为一个sql查询引擎,自带了一些基本的函数,比如count(计数),sum(求和),有时候这些基本函数满足不了我们的需求,这时候就要写hive hdf(user defined funation),又叫用户自定义函数。 需求:我们希望,将hive的workflow字段…
Hive的其他语言调用(15)
metadata :hive元数据,即hive定义的表名,字段名,类型,分区,用户这些数据。一般存储关系型书库mysql中,在测试阶段也可以用hive内置Derby数据库。 metastore :hivestore服务端。主要提供将DDL,DML等语句转换为MapReduce,…
Hive架构之HiveServer2(14)
其实我们在前面讲Hive的架构设计 的时候提到过,Hive 提供的另外一个shell 客户端,也就是我们常用的hive 命令的客户端它的设计是直接启动了一个org.apache.hadoop.hive.cli.CliDriver的进程,这个进程其实主要包含了两块内容一个是提供给…
Hive Streaming(12)
HIVE是通过利用或扩展Hadoop的组件功能来运行的,常见的抽象有InputFormat、OutputFormat、Mapper、Reducer,还包含一些自己的抽象接口,例如SerializerDeserializer(SerDe)、用户自定义函数(UDF)和Storage…