首页
AI Coding
NEW
沸点
课程
直播
活动
AI刷题
APP
插件
搜索历史
清空
创作者中心
写文章
发沸点
写笔记
写代码
草稿箱
创作灵感
查看更多
会员
登录
注册
确定删除此收藏集吗
删除后此收藏集将被移除
取消
确定删除
确定删除此文章吗
删除后此文章将被从当前收藏集中移除
取消
确定删除
编辑收藏集
名称:
描述:
0
/100
公开
当其他人关注此收藏集后不可再更改为隐私
隐私
仅自己可见此收藏集
取消
确定
mr
订阅
妙言
更多收藏集
微信扫码分享
微信
新浪微博
QQ
3篇文章 · 0订阅
Hive 千亿级数据倾斜解决方案
数据倾斜问题剖析 数据倾斜是分布式系统不可避免的问题,任何分布式系统都有几率发生数据倾斜,但有些小伙伴在平时工作中感知不是很明显。这里要注意本篇文章的标题—“千亿级数据”,为什么说千亿级,因为如果一个
细品数据倾斜(建议收藏)
数据倾斜是大数据领域绕不开的拦路虎,当你所需处理的数据量到达了上亿甚至是千亿条的时候,数据倾斜将是横在你面前一道巨大的坎。 迈的过去,将会海阔天空!迈不过去,就要做好准备:很可能有几周甚至几月都要头疼于数据倾斜导致的各类诡异的问题。 话题比较大,技术要求也比较高,笔者尽最大的能…
再谈Shuffle(Spark&MR)
Map的输出并不是简单的直接写到磁盘,先写到缓冲区,当缓冲区要spill磁盘的时候对缓冲区内容进行排序。 每个MapTask(计算一个split)都有一个环形缓冲区(默认100MB,这是一个调优点,不过应该再也不写MR了),当缓冲区达到阈值(80%,这也是个可调优的地方),有一…