MapReduce
MR是一种典型的离线分布式计算技术。
两个函数: Map和Reduce
• 核心思想: 分而治之
• 设计理念: 计算向数据靠拢
MapReduce vs 并行计算
分布式的4种计算架构
1. 内存计算
• 随着内存价格的不断下降、服务器可配置内存容量的不断增长,使用内存计算完成高速的大数据处理已成为大数据处理的重要发展方向
• 目前常用的内存计算系统有分布式内存计算系统Spark、全内存式分布式数据库系统HANA、 Google的可扩展交互式查询系统Dremel。
2. 流式计算
• 流数据(或数据流)是指在时间分布和数量上无限的一系列动态数据集合体,数据的价值随着时间的流逝而降低,因此必须采用实时计算的方式给出秒级响应。
• 目前常用的流式计算系统有分布式实时计算系统Apache Storm、流处理框架Apache Samza。
3. 图计算
• 在大数据时代,许多大数据都是以大规模图或网络的形式呈现,许多非图结构的大数据也常会被转换为图模型后再进行处理分析。
• 针对大型图的计算,需要采用图计算模式。其中最具有代表性的就是Pregel 。
4. 迭代计算
• 针对MapReduce不支持迭代计算的缺陷,人们对Hadoop的MapReduce进行了大量改进,HaLoop、Twister、Spark等都是典型的迭代计算系统。