Java大数据 - 用户5662431339714的收藏集 - 掘金

Java大数据

用户5662431339714 创作等级LV.2

更多收藏集

7篇文章 · 0订阅

HDFS架构及原理

随着数据量的不断增大，文件的大小取决于单机存储的上限，这显然满足不了我们的需求。HDFS将大文件切块，部署到不同的机器节点上，完成分布式存储。在分布式系统中，计算机节点放在机架上，每个机架存在很多节点，不同机架之间通过交换机通信，同一机架不同节点之间通过网络互连。一台计算机…

Algoric
7年前
3.5k
13
评论

HDFS基本操作

本篇主要包括：HDFS概念、HDFS命令行操作、HDFS客户端操作，没有涉及到原理性知识，原理性知识将会在下一篇进行介绍。 NameNode负责管理整个文件系统的元数据，以及每一个路径（文件）所对应的数据块信息。 DataNode 负责管理用户的文件数据块，每一个数据块都可以在…

坐下坐下，基本操作（ZooKeeper 操作篇）

Hi，这里是 HelloGitHub 推出的 HelloZooKeeper 系列，免费开源、有趣、入门级的 ZooKeeper 教程，面向有编程基础的新手。本系列教程是从零开始讲解 ZooKeeper，内容从最基础的安装使用到背后原理和源码的讲解，整个系列希望通过有趣文字、诙…

HelloGitHub
5年前
1.8k
17
评论

坐下坐下，基本操作（ZooKeeper 操作篇）

Hadoop之MapReduce简介

之前是一张一张的串行计算，现在使用mapreduce是把数据分配给多个人，并行计算，每一个人获得一个局部聚合的临时结果，最终再统一汇总一下。这样就可以快速得到答案了，这其实就是MapReduce的计算思想。再举一个例子，就拿我们平时使用比较多的JDBC代码执行的流程来说。 …

晨少
5年前
1.3k
6
评论

Hadoop之深入理解YARN

1）MR程序提交到客户端所在的节点。（2）YarnRunner向ResourceManager申请一个Application。（3）RM将该应用程序的资源路径返回给YarnRunner。（4）该程序将运行所需资源提交到HDFS上。（5）程序资源提交完毕后…

搞数据的小伙伴
5年前
1.1k
2
评论

1）客户端通过Distributed FileSystem模块向NameNode请求上传文件，NameNode检查目标文件是否已存在，父目录是否存在。 2）NameNode返回是否可以上传。 3）客户端请求第一个 Block上传到哪几个DataNode服务器上。 4）NameN…

搞数据的小伙伴
5年前
437
2
评论

Hadoop概述及入门

Hadoop 2.x - 可以通过复制（浪费空间）来处理容错。 Hadoop 3.x - 可以通过Erasure编码处理容错。 Hadoop 2.x - 对于数据平衡使用HDFS平衡器。 Hadoop 3.x - 对于数据平衡使用Intra-data节点平衡器，该平衡器通过HD…

搞数据的小伙伴
5年前
1.3k
4
2