Hadoop - Wangsyaa的收藏集 - 掘金

Hadoop

更多收藏集

4篇文章 · 0订阅

一文读懂MapReduce

Hadoop解决大规模数据分布式计算的方案是MapReduce。MapReduce既是一个编程模型，又是一个计算框架。也就是说，开发人员必须基于MapReduce编程模型进行编程开发，然后将程序通过MapReduce计算框架分发到Hadoop集群中运行。我们先看一下作为编程模型…

王知无
7年前
17k
44
2

带你入坑大数据（二） --- HDFS的读写流程和一些重要策略

Distributed FileSystem顾名思义是一个分布式文件系统，它会通过RPC的方式远程过程调用NameNode里的open方法，这个open方法有什么作用呢，就是获取要读的文件的file block locations，也就是文件的block的位置，在上一讲我们也已…

说出你的愿望吧
6年前
5.8k
53
11

hadoop-HDFS流程解析

客户端调用DS模块向NameNode请求上传文件。假设文件为200M，客户端请求上传第一个 Block ，希望得到DataNode服务器位置。 NameNode返回3个DataNode节点，分别为dn1、dn2、dn3，用它们存储数据。客户端通过FSDataOutputSt…

Zouxxyy
6年前
1.3k
2
评论

MapReduce流程解析

MapReduce是一种分布式计算框架，以一种可靠的，具有容错能力的方式并行地处理TB数据级别的海量数据集。MapReduce主要有两个阶段组成：Map和Reduce；用户只需实现map()和reduce()函数，就可实现分布式计算。 MapReduce的核心思想是分治法。将复…

九点半的马拉
6年前
1.9k
6
评论