hadoop - Barber0的收藏集 - 掘金

hadoop

更多收藏集

2篇文章 · 0订阅

Hadoop Shuffle详解

每个任务最重要的一个过程就Shuffle过程，这个过程会把所有的数据进行洗牌整理，排序，如果数据量大，将会非常的耗时。如图1.1所示，是一个从map端输出数据到合并成一个文件的过程。图1.1 Map文件输出从图中可以看到Map端输出的数据会被提交到一个内存缓冲区当中，当内存…

落寞的搬运工
7年前
2.5k
8
1

Hadoop之MapReduce实战

MapReduce是一种编程模型，"Map（映射）"和"Reduce（归约）"，是它们的主要思想，我们通过Map函数来分布式处理输入数据，然后通过Reduce汇总结果并输出。其实这个概念有点类似于我们Java8中的StreamApi，有兴趣的同学也可以去看看。 MapReduc…

名字想好没
7年前
2.3k
12
2