Hive - 飘过的小熊的收藏集 - 掘金

Hive

飘过的小熊

更多收藏集

8篇文章 · 0订阅

Hive的调优你都知道那些？

我们在工作中还是在学习中有都会遇到我们写的HQL语句执行效率不高，那我们该怎么提高查询效率那，这篇文章就带你从不同维度讲解,让你的HQL瞬间提高一个档次。记得收藏 Hive中对某些情况的查询可以不必使用MapReduce计算。例如：SELECT * FROM employees…

大数据老哥
5年前
885
2
评论

mapreduce之shuffle

shuffle是mapreduce任务中耗时比较大的一个过程，面试中也经常问。简单来说shuffle就是map之后，reduce之前的所有操作的过程，包含map task端对数据的分区、排序，溢写磁盘和合并操作，以及reduce task端从网络拉取数据、对数据排序合并等一系列…

lshua
5年前
1.4k
6
评论

数仓利器-Hive高频函数合集

前言数据准备数据集建表语句窗口函数row_number：使用频率★★★★★rank：使用频率★★★★dense_rank：使用频率★★★★rank/dense_rank/row_number对比fir

进击吧大数据
5年前
2.9k
9
1

【技术猩球】牛人分享：大数据架构师在关注什么？

在一个大数据团队中，大数据架构师主要关注的核心问题就是技术架构选型问题。架构选型问题一般会受到哪些因素的影响呢？在我们的实践中，一般大数据领域架构选型最受以下几个因素影响：数据量级这一点在大数据领域尤

七牛云
5年前
1.3k
4
评论

你真的懂hive窗口函数吗，如何开窗聚合？

目录1窗口函数Windowingfunctions2OVER详解TheOVERclause2.1标准聚合函数2.2分析函数Analyticsfunctions2.3OVER子句也支持聚合函数2.4wi

种豆大叔
5年前
2.3k
3
评论

数仓面试|四个在工作后才知道的SQL密技

SQL是大数据从业者的必备技能，大部分的大数据技术框架也都提供了SQL的解决方案。可以说SQL是一种经久不衰、历久弥新的编程语言。尤其是在数仓领域，使用SQL更是家常便饭。本文会分享四个在面试和工作中常用的几个使用技巧，具体包括：日期与时间段的筛选在工作中是经常被用到的，因为…

大数据技术与数仓
5年前
2.0k
5
评论

第一次写优化相关的文章，先简单谈谈关于优化看法。首先一点是很多优化设计不管是缓存、索引还是排序等等，其核心的思想就是减少IO。然后在分布式场景下效率还遵循木桶效应，任务是并行执行的，最后执行完的任务决定了整个任务的耗时。所以均衡各个任务节点的任务是在分布式场景下的重要优化思路。…

lshua
5年前
1.5k
8
评论

Hive 调优总结，让 Hive 调优想法不再碎片化

通过阅读比较多的Hive调优材料，并根据自己的实践，总结Hive 调优如下，让Hive调优想法不再凌乱、碎片化，而是形成结构。这个链接基于上面的链接做了自己的实践经验总结，纠正了上面那篇文章中一些因为版本太老导致的参数不一致的问题。关于 group by 和 join 更详…

wjz1893
5年前
4.0k
6
2