mr - 妙言的收藏集 - 掘金

mr

更多收藏集

3篇文章 · 0订阅

Hive 千亿级数据倾斜解决方案

数据倾斜问题剖析数据倾斜是分布式系统不可避免的问题，任何分布式系统都有几率发生数据倾斜，但有些小伙伴在平时工作中感知不是很明显。这里要注意本篇文章的标题—“千亿级数据”，为什么说千亿级，因为如果一个

编程学习网
4年前
616
1
评论

细品数据倾斜（建议收藏）

数据倾斜是大数据领域绕不开的拦路虎，当你所需处理的数据量到达了上亿甚至是千亿条的时候，数据倾斜将是横在你面前一道巨大的坎。迈的过去，将会海阔天空！迈不过去，就要做好准备：很可能有几周甚至几月都要头疼于数据倾斜导致的各类诡异的问题。话题比较大，技术要求也比较高，笔者尽最大的能…

爱Rap篮球写代码的蔡徐
5年前
4.0k
9
评论

再谈Shuffle（Spark&MR）

Map的输出并不是简单的直接写到磁盘，先写到缓冲区，当缓冲区要spill磁盘的时候对缓冲区内容进行排序。每个MapTask（计算一个split）都有一个环形缓冲区（默认100MB，这是一个调优点，不过应该再也不写MR了），当缓冲区达到阈值（80%，这也是个可调优的地方），有一…

霍云
5年前
1.4k
1
评论