hive - 用户5870349545448的收藏集 - 掘金

hive

用户5870349545448

更多收藏集

9篇文章 · 0订阅

一文学完所有的Hive Sql（两万字最全详解）

lateral view用于和split、explode等UDTF一起使用的，能将一行数据拆分成多行数据，在此基础上可以对拆分的数据进行聚合，lateral view首先为原始表的每行调用UDTF，UDTF会把一行拆分成一行或者多行，lateral view在把结果组合，产…

五分钟学大数据
5年前
5.1k
28
评论

Hive SQL 编译 MapReduce

Hive 是基于 Hadoop 的一个数据仓库系统，在各大公司都有广泛的应用。美团数据仓库也是基于 Hive 搭建，每天执行近万次的 Hive ETL 计算流程，负责每天数百 GB 的数据存储和分析。Hive 的稳定性和性能对我们的数据分析非常关键。在几次升级 Hive 的过…

河西
6年前
2.0k
8
评论

Spark SQL/Hive调优

1. 数据倾斜的原因任务进度长时间维持在99%（或100%），查看任务监控页面，发现只有少量（1个或几个）reduce子任务未完成。因为其处理的数据量和其他reduce差异过大。单一reduce的记录数与平均记录数差异过大，通常可能达到3倍甚至更多。最长时长远大于平均时长…

Meet相识
7年前
1.4k
2
评论

小白也能看懂的 Hive 调优

Hive 一个常用的大数据组件，影响它的性能的从来都不是因为数据量过大的问题，而是数据倾斜，冗余，Job 和 IO 过多，MapReduce 分配不合理···等

说出你的愿望吧
4年前
4.2k
58
8

Hive 千亿级数据倾斜解决方案

数据倾斜问题剖析数据倾斜是分布式系统不可避免的问题，任何分布式系统都有几率发生数据倾斜，但有些小伙伴在平时工作中感知不是很明显。这里要注意本篇文章的标题—“千亿级数据”，为什么说千亿级，因为如果一个

编程学习网
4年前
629
1
评论

hive数据倾斜

数据倾斜原因： key分布不均，或者业务数据本身的特性，和sql语句本身就有数据倾斜，建表不规范的问题例如： 1.大小表join，其中小表key集中，分发到某个或几个reduce上的数据远高于平均

无有wy
4年前
610
点赞
评论

第一次写优化相关的文章，先简单谈谈关于优化看法。首先一点是很多优化设计不管是缓存、索引还是排序等等，其核心的思想就是减少IO。然后在分布式场景下效率还遵循木桶效应，任务是并行执行的，最后执行完的任务决定了整个任务的耗时。所以均衡各个任务节点的任务是在分布式场景下的重要优化思路。…

lshua
5年前
1.5k
8
评论

一文详解Hive的谓词下推

谓词，是指用来描述或判断客体性质、特征或客体之间关系的词项。在SQL中即返回值为布尔值的函数。谓词下推，在Hive中叫Predicate Pushdown，含义是指在不影响结果的前提下，尽量将过

尚硅谷
4年前
1.2k
点赞
评论

Hive优化的十大方法

Hive用的好，才能从数据中挖掘出更多的信息来。用过hive的朋友，我想或多或少都有类似的经历：一天下来，没跑几次hive，就到下班时间了。Hive在极大数据或者数据不平衡等情况下，表现往往一般，因此

王知无
6年前
1.5k
3
评论