首页
AI Coding
NEW
沸点
课程
直播
活动
AI刷题
APP
插件
搜索历史
清空
创作者中心
写文章
发沸点
写笔记
写代码
草稿箱
创作灵感
查看更多
会员
登录
注册
确定删除此收藏集吗
删除后此收藏集将被移除
取消
确定删除
确定删除此文章吗
删除后此文章将被从当前收藏集中移除
取消
确定删除
编辑收藏集
名称:
描述:
0
/100
公开
当其他人关注此收藏集后不可再更改为隐私
隐私
仅自己可见此收藏集
取消
确定
hive
订阅
elevenhome
更多收藏集
微信扫码分享
微信
新浪微博
QQ
11篇文章 · 0订阅
Hive 系列(八)—— Hive 数据查询详解
为了演示查询操作,这里需要预先创建三张表,并加载测试数据。 Hive 支持使用 DISTINCT 关键字去重。 分区查询 (Partition Based Queries),可以指定某个分区或者分区范围。 Hive 支持使用 GROUP BY 进行分组聚合操作。 hive.ma…
Hive 系列(四)—— Hive 常用 DDL 操作
默认行为是 RESTRICT,如果数据库中存在表则删除失败。要想删除库及其中的表,可以使用 CASCADE 级联删除。 通过指定一个或者多个列经常出现的值(严重偏斜),Hive 会自动将涉及到这些值的数据拆分为单独的文件。在查询时,如果涉及到倾斜值,它就直接从独立文件中获取数据…
Hive 系列(三)—— Hive CLI 和 Beeline 命令行的基本使用
直接使用 Hive 命令,不加任何参数,即可进入交互式命令行。 在不进入交互式命令行的情况下,可以使用 hive -e 执行 SQL 命令。 用于执行的 sql 脚本可以在本地文件系统,也可以在 HDFS 上。 可以使用 --hiveconf 设置 Hive 运行时的变量。 使…
Hive 系列(一)—— Hive 简介及核心概念
Hive 是一个构建在 Hadoop 之上的数据仓库,它可以将结构化的数据文件映射成表,并提供类 SQL 查询功能,用于查询的 SQL 语句会被转化为 MapReduce 作业,然后提交到 Hadoop 上运行。 执行延迟高,不适合做数据的实时处理,但适合做海量数据的离线处理。…
从0开始学大数据-Hive性能优化篇
在工作中使用hive比较多,也写了很多HiveQL。这里从三个方面对 Hive 常用的一些性能优化进行了总结。 分区表 是在某一个或者几个维度上对数据进行分类存储,一个分区对应一个目录。如果筛选条件里有分区字段,那么 Hive 只需要遍历对应分区目录下的文件即可,不需要遍历全局…
Hive 系列(七)—— Hive 常用 DML 操作
加载的目标可以是表或分区。如果是分区表,则必须指定加载数据的分区; 加载文件的格式必须与建表时使用 STORED AS 指定的存储格式相同。 Hive 0.13.0 开始,建表时可以通过使用 TBLPROPERTIES(“immutable”=“true”)来创建不可变表 (i…
Hive 系列(六)—— Hive 视图和索引
Hive 中的视图和 RDBMS 中视图的概念一致,都是一组数据的逻辑表示,本质上就是一条 SELECT 语句的结果集。视图是纯粹的逻辑对象,没有关联的存储 (Hive 3.0.0 引入的物化视图除外),当查询引用视图时,Hive 可以将视图的定义与查询结合起来,例如将查询中的…
Hive 系列(五)—— Hive 分区表和分桶表
Hive 中的表对应为 HDFS 上的指定目录,在查询数据时候,默认会对全表进行扫描,这样时间和性能的消耗都非常大。 分区为 HDFS 上表目录的子目录,数据按照分区存储在子目录中。如果查询的 where 字句的中包含分区条件,则直接从该分区去查找,而不是扫描整个表目录,合理的…
Hive 系列(二)—— Linux 环境下 Hive 的安装部署
下载所需版本的 Hive,这里我下载版本为 cdh5.15.2。下载地址:http://archive.cloudera.com/cdh5/cdh/5/ 1. hive-env.sh 2. hive-site.xml 将 MySQL 驱动包拷贝到 Hive 安装目录的 lib …
Hive 入门
压缩:GZIP,LZO,Snappy,Bzip2... hive.exec.reducers.bytes.per.reducer 这个参数控制一个job会有多少个reducer来处理,依据的是输入文件的总大小。默认1GB。(即每个reduce任务处理的数据量。) hive.ex…