大数据 - 高调奢华丶低就梦的收藏集 - 掘金

大数据

高调奢华丶低就梦

更多收藏集

2篇文章 · 0订阅

Hadoop Shuffle详解

每个任务最重要的一个过程就Shuffle过程，这个过程会把所有的数据进行洗牌整理，排序，如果数据量大，将会非常的耗时。如图1.1所示，是一个从map端输出数据到合并成一个文件的过程。图1.1 Map文件输出从图中可以看到Map端输出的数据会被提交到一个内存缓冲区当中，当内存…

落寞的搬运工
7年前
2.5k
8
1

大数据资源整理

scala、spark 使用过程中，各种测试用例以及相关资料整理

jacksu
9年前
4.1k
186
1