hadoop - elevenhome的收藏集 - 掘金

hadoop

更多收藏集

13篇文章 · 0订阅

Hadoop 系列（六）—— HDFS 常用 Shell 命令

1. 显示当前目录结构 2. 创建目录 3. 删除操作 4. 从本地加载文件到 HDFS 5. 从 HDFS 导出文件到本地 6. 查看文件内容 7. 显示文件的最后一千字节 8. 拷贝文件 9. 移动文件 10. 统计当前目录下各文件大小 11. 合并下载多个文件 12. 统…

heibaiying
6年前
2.5k
2
评论

Hadoop 系列（三）—— 分布式计算框架 MapReduce

Hadoop MapReduce 是一个分布式计算框架，用于编写批处理应用程序。编写好的程序可以提交到 Hadoop 集群上用于并行处理大规模的数据集。 MapReduce 作业通过将输入的数据集拆分为独立的块，这些块由 map 以并行的方式处理，框架对 map 的输出进行排序…

heibaiying
6年前
1.4k
3
1

MapReduce 工作流程

产出的key/value record会暂存在内存中的一块环形缓冲区中（逻辑上成环形），写入record时会从环形上的两个位置写入，一个位置写入record，一个位置写入record的索引inde，这样做的好处是：要想在环上找到一个record不用遍历数据量较大的record序…

Anwen
6年前
1.9k
4
评论

Hadoop 系列（一）—— 分布式文件系统 HDFS

HDFS （Hadoop Distributed File System）是 Hadoop 下的分布式文件系统，具有高容错、高吞吐量等特性，可以部署在低成本的硬件上。 NameNode : 负责执行有关文件系统命名空间的操作，例如打开，关闭、重命名文件和目录等。它同时还负责…

heibaiying
6年前
2.5k
20
1

Hadoop 系列（七）—— HDFS Java API

想要使用 HDFS API，需要导入依赖 hadoop-client。如果是 CDH 版本的 Hadoop，还需要额外指明其仓库地址： FileSystem 是所有 HDFS 操作的主入口。由于之后的每个单元测试都需要用到它，这里使用 @Before 注解进行标注。 FsPer…

heibaiying
6年前
6.3k
7
评论

Hadoop 系列（二）—— 集群资源管理器 YARN

Apache YARN (Yet Another Resource Negotiator) 是 hadoop 2.0 引入的集群资源管理系统。用户可以将各种服务框架部署在 YARN 上，由 YARN 进行统一地管理和资源分配。 1. ResourceManager Resour…

heibaiying
6年前
2.0k
1
1

Hadoop 学习系列（三）之 YARN 详细解析

Apache Hadoop YARN 是开源 Hadoop 分布式处理框架中的资源管理和作业调度技术。作为 Apache Hadoop 的核心组件之一，YARN 负责将系统资源分配给在 Hadoop 集群中运行的各种应用程序，并调度要在不同集群节点上执行的任务。 YARN 的基…

PeTu9465
7年前
3.4k
7
评论

Hadoop 系列（五）—— Hadoop 集群环境搭建

这里搭建一个 3 节点的 Hadoop 集群，其中三台主机均部署 DataNode 和 NodeManager 服务，但只有 hadoop001 上部署 NameNode 和 ResourceManager 服务。 Hadoop 的运行依赖 JDK，需要预先安装。其安装步骤单独…

heibaiying
6年前
882
5
评论

Hadoop入门（二）之 HDFS 详细解析

Hadoop 生态是一个庞大的、功能齐全的生态，但是围绕的还是名为 Hadoop 的分布式系统基础架构，其核心组件由四个部分组成，分别是：Common、HDFS、MapReduce 以及 YARN。 YARN 是 Hadoop 架构升级后，目前广泛使用的资源管理器。小目标是为…

PeTu9465
7年前
4.4k
21
评论

Hadoop 学习系列（四）之 MapReduce 原理讲解

本篇文章将会介绍 Hadoop 重要的计算框架 MapReduce。实际运行层面，即算法逻辑作业在分布式主机中是以什么形式和什么流程运行的，因为自 MapReduce version2 以后，作业都是提交给 YARN 进行管理，所以本文将不会介绍此部分。 MapReduce是…

PeTu9465
7年前
14k
30
2