首页
AI Coding
NEW
沸点
课程
直播
活动
AI刷题
APP
插件
搜索历史
清空
创作者中心
写文章
发沸点
写笔记
写代码
草稿箱
创作灵感
查看更多
会员
登录
注册
确定删除此收藏集吗
删除后此收藏集将被移除
取消
确定删除
确定删除此文章吗
删除后此文章将被从当前收藏集中移除
取消
确定删除
编辑收藏集
名称:
描述:
0
/100
公开
当其他人关注此收藏集后不可再更改为隐私
隐私
仅自己可见此收藏集
取消
确定
hadoop
订阅
elevenhome
更多收藏集
微信扫码分享
微信
新浪微博
QQ
13篇文章 · 0订阅
Hadoop 系列(六)—— HDFS 常用 Shell 命令
1. 显示当前目录结构 2. 创建目录 3. 删除操作 4. 从本地加载文件到 HDFS 5. 从 HDFS 导出文件到本地 6. 查看文件内容 7. 显示文件的最后一千字节 8. 拷贝文件 9. 移动文件 10. 统计当前目录下各文件大小 11. 合并下载多个文件 12. 统…
Hadoop 系列(三)—— 分布式计算框架 MapReduce
Hadoop MapReduce 是一个分布式计算框架,用于编写批处理应用程序。编写好的程序可以提交到 Hadoop 集群上用于并行处理大规模的数据集。 MapReduce 作业通过将输入的数据集拆分为独立的块,这些块由 map 以并行的方式处理,框架对 map 的输出进行排序…
MapReduce 工作流程
产出的key/value record会暂存在内存中的一块环形缓冲区中(逻辑上成环形),写入record时会从环形上的两个位置写入,一个位置写入record,一个位置写入record的索引inde,这样做的好处是:要想在环上找到一个record不用遍历数据量较大的record序…
Hadoop 系列(一)—— 分布式文件系统 HDFS
HDFS (Hadoop Distributed File System)是 Hadoop 下的分布式文件系统,具有高容错、高吞吐量等特性,可以部署在低成本的硬件上。 NameNode : 负责执行有关 文件系统命名空间 的操作,例如打开,关闭、重命名文件和目录等。它同时还负责…
Hadoop 系列(七)—— HDFS Java API
想要使用 HDFS API,需要导入依赖 hadoop-client。如果是 CDH 版本的 Hadoop,还需要额外指明其仓库地址: FileSystem 是所有 HDFS 操作的主入口。由于之后的每个单元测试都需要用到它,这里使用 @Before 注解进行标注。 FsPer…
Hadoop 系列(二)—— 集群资源管理器 YARN
Apache YARN (Yet Another Resource Negotiator) 是 hadoop 2.0 引入的集群资源管理系统。用户可以将各种服务框架部署在 YARN 上,由 YARN 进行统一地管理和资源分配。 1. ResourceManager Resour…
Hadoop 学习系列(三)之 YARN 详细解析
Apache Hadoop YARN 是开源 Hadoop 分布式处理框架中的资源管理和作业调度技术。作为 Apache Hadoop 的核心组件之一,YARN 负责将系统资源分配给在 Hadoop 集群中运行的各种应用程序,并调度要在不同集群节点上执行的任务。 YARN 的基…
Hadoop 系列(五)—— Hadoop 集群环境搭建
这里搭建一个 3 节点的 Hadoop 集群,其中三台主机均部署 DataNode 和 NodeManager 服务,但只有 hadoop001 上部署 NameNode 和 ResourceManager 服务。 Hadoop 的运行依赖 JDK,需要预先安装。其安装步骤单独…
Hadoop入门(二)之 HDFS 详细解析
Hadoop 生态是一个庞大的、功能齐全的生态,但是围绕的还是名为 Hadoop 的分布式系统基础架构,其核心组件由四个部分组成,分别是:Common、HDFS、MapReduce 以及 YARN。 YARN 是 Hadoop 架构升级后,目前广泛使用的资源管理器。 小目标是为…
Hadoop 学习系列(四)之 MapReduce 原理讲解
本篇文章将会介绍 Hadoop 重要的计算框架 MapReduce。 实际运行层面,即算法逻辑作业在分布式主机中是以什么形式和什么流程运行的,因为自 MapReduce version2 以后,作业都是提交给 YARN 进行管理,所以本文将不会介绍此部分。 MapReduce是…