map reduce的过程

29 阅读1分钟

hadoop的hdfs解决了文件存储的问题,下一个问题在于怎么对这些文件进行分布式计算。比如,怎么对文件中的单词做统计。

可以将这些文件进行分块/分区逻辑处理。每个进程仅统计一个分区的数据文件,然后在将各个进程的统计结果做一个合并。

分区计算的过程叫map,合并的过程叫reduce。

map和reduce之间还有一个过程叫shuffle。

shuffle的含义是:对map的数据结果进行排序处理,然后由reduce进行归并。

image.png