首页
沸点
课程
数据标注
HOT
AI Coding
更多
直播
活动
APP
插件
直播
活动
APP
插件
搜索历史
清空
创作者中心
写文章
发沸点
写笔记
写代码
草稿箱
创作灵感
查看更多
登录
注册
确定删除此收藏集吗
删除后此收藏集将被移除
取消
确定删除
确定删除此文章吗
删除后此文章将被从当前收藏集中移除
取消
确定删除
编辑收藏集
名称:
描述:
0
/100
公开
当其他人关注此收藏集后不可再更改为隐私
隐私
仅自己可见此收藏集
取消
确定
Hive
订阅
飘过的小熊
更多收藏集
微信扫码分享
微信
新浪微博
QQ
8篇文章 · 0订阅
Hive的调优你都知道那些?
我们在工作中还是在学习中有都会遇到我们写的HQL语句执行效率不高,那我们该怎么提高查询效率那,这篇文章就带你从不同维度讲解,让你的HQL瞬间提高一个档次。记得收藏 Hive中对某些情况的查询可以不必使用MapReduce计算。例如:SELECT * FROM employees…
mapreduce之shuffle
shuffle是mapreduce任务中耗时比较大的一个过程,面试中也经常问。简单来说shuffle就是map之后,reduce之前的所有操作的过程,包含map task端对数据的分区、排序,溢写磁盘和合并操作,以及reduce task端从网络拉取数据、对数据排序合并等一系列…
数仓利器-Hive高频函数合集
前言数据准备数据集建表语句窗口函数row_number:使用频率★★★★★rank:使用频率★★★★dense_rank:使用频率★★★★rank/dense_rank/row_number对比fir
【技术猩球】牛人分享:大数据架构师在关注什么?
在一个大数据团队中,大数据架构师主要关注的核心问题就是技术架构选型问题。架构选型问题一般会受到哪些因素的影响呢?在我们的实践中,一般大数据领域架构选型最受以下几个因素影响:数据量级这一点在大数据领域尤
你真的懂hive窗口函数吗,如何开窗聚合?
目录1窗口函数Windowingfunctions2OVER详解TheOVERclause2.1标准聚合函数2.2分析函数Analyticsfunctions2.3OVER子句也支持聚合函数2.4wi
数仓面试|四个在工作后才知道的SQL密技
SQL是大数据从业者的必备技能,大部分的大数据技术框架也都提供了SQL的解决方案。可以说SQL是一种经久不衰、历久弥新的编程语言。尤其是在数仓领域,使用SQL更是家常便饭。本文会分享四个在面试和工作中常用的几个使用技巧,具体包括: 日期与时间段的筛选在工作中是经常被用到的,因为…
hive优化
第一次写优化相关的文章,先简单谈谈关于优化看法。首先一点是很多优化设计不管是缓存、索引还是排序等等,其核心的思想就是减少IO。然后在分布式场景下效率还遵循木桶效应,任务是并行执行的,最后执行完的任务决定了整个任务的耗时。所以均衡各个任务节点的任务是在分布式场景下的重要优化思路。…
Hive 调优总结,让 Hive 调优想法不再碎片化
通过阅读比较多的Hive调优材料,并根据自己的实践,总结Hive 调优如下,让Hive调优想法不再凌乱、碎片化,而是形成结构。 这个链接基于上面的链接做了自己的实践经验总结,纠正了上面那篇文章中一些因为版本太老导致的参数不一致的问题。 关于 group by 和 join 更详…