首页
AI Coding
NEW
沸点
课程
直播
活动
AI刷题
APP
插件
搜索历史
清空
创作者中心
写文章
发沸点
写笔记
写代码
草稿箱
创作灵感
查看更多
会员
登录
注册
确定删除此收藏集吗
删除后此收藏集将被移除
取消
确定删除
确定删除此文章吗
删除后此文章将被从当前收藏集中移除
取消
确定删除
编辑收藏集
名称:
描述:
0
/100
公开
当其他人关注此收藏集后不可再更改为隐私
隐私
仅自己可见此收藏集
取消
确定
hive
订阅
用户5870349545448
更多收藏集
微信扫码分享
微信
新浪微博
QQ
9篇文章 · 0订阅
一文学完所有的Hive Sql(两万字最全详解)
lateral view用于和split、explode等UDTF一起使用的,能将一行数据拆分成多行数据,在此基础上可以对拆分的数据进行聚合,lateral view首先为原始表的每行调用UDTF,UDTF会把一行拆分成一行或者多行,lateral view在把结果组合,产…
Hive SQL 编译 MapReduce
Hive 是基于 Hadoop 的一个数据仓库系统,在各大公司都有广泛的应用。美团数据仓库也是基于 Hive 搭建,每天执行近万次的 Hive ETL 计算流程,负责每天数百 GB 的数据存储和分析。Hive 的稳定性和性能对我们的数据分析非常关键。 在几次升级 Hive 的过…
Spark SQL/Hive调优
1. 数据倾斜的原因 任务进度长时间维持在99%(或100%),查看任务监控页面,发现只有少量(1个或几个)reduce子任务未完成。因为其处理的数据量和其他reduce差异过大。 单一reduce的记录数与平均记录数差异过大,通常可能达到3倍甚至更多。 最长时长远大于平均时长…
小白也能看懂的 Hive 调优
Hive 一个常用的大数据组件,影响它的性能的从来都不是因为数据量过大的问题,而是数据倾斜,冗余,Job 和 IO 过多,MapReduce 分配不合理···等
Hive 千亿级数据倾斜解决方案
数据倾斜问题剖析 数据倾斜是分布式系统不可避免的问题,任何分布式系统都有几率发生数据倾斜,但有些小伙伴在平时工作中感知不是很明显。这里要注意本篇文章的标题—“千亿级数据”,为什么说千亿级,因为如果一个
hive数据倾斜
数据倾斜原因: key分布不均,或者业务数据本身的特性,和sql语句本身就有数据倾斜,建表不规范的问题 例如: 1.大小表join,其中小表key集中 ,分发到某个或几个reduce上的数据远高于平均
hive优化
第一次写优化相关的文章,先简单谈谈关于优化看法。首先一点是很多优化设计不管是缓存、索引还是排序等等,其核心的思想就是减少IO。然后在分布式场景下效率还遵循木桶效应,任务是并行执行的,最后执行完的任务决定了整个任务的耗时。所以均衡各个任务节点的任务是在分布式场景下的重要优化思路。…
一文详解Hive的谓词下推
谓词,是指用来描述或判断客体性质、特征或客体之间关系的词项。在SQL中即返回值为布尔值的函数。 谓词下推,在Hive中叫Predicate Pushdown,含义是指在不影响结果的前提下,尽量将过
Hive优化的十大方法
Hive用的好,才能从数据中挖掘出更多的信息来。用过hive的朋友,我想或多或少都有类似的经历:一天下来,没跑几次hive,就到下班时间了。Hive在极大数据或者数据不平衡等情况下,表现往往一般,因此