map reduce的过程 CoderCaesar 2024-10-12 29 阅读1分钟 hadoop的hdfs解决了文件存储的问题,下一个问题在于怎么对这些文件进行分布式计算。比如,怎么对文件中的单词做统计。 可以将这些文件进行分块/分区逻辑处理。每个进程仅统计一个分区的数据文件,然后在将各个进程的统计结果做一个合并。 分区计算的过程叫map,合并的过程叫reduce。 map和reduce之间还有一个过程叫shuffle。 shuffle的含义是:对map的数据结果进行排序处理,然后由reduce进行归并。