首页
首页
沸点
课程
直播
活动
竞赛
商城
APP
插件
搜索历史
清空
创作者中心
写文章
发沸点
写笔记
写代码
草稿箱
创作灵感
查看更多
会员
登录
注册
确定删除此收藏集吗
删除后此收藏集将被移除
取消
确定删除
确定删除此文章吗
删除后此文章将被从当前收藏集中移除
取消
确定删除
编辑收藏集
名称:
描述:
0
/100
公开
当其他人关注此收藏集后不可再更改为隐私
隐私
仅自己可见此收藏集
取消
确定
hadoop
订阅
elevenhome
更多收藏集
微信扫码分享
微信
新浪微博
QQ
13篇文章 · 0订阅
heibaiying
3年前
Hadoop
Hadoop 系列(六)—— HDFS 常用 Shell 命令
1. 显示当前目录结构 2. 创建目录 3. 删除操作 4. 从本地加载文件到 HDFS 5. 从 HDFS 导出文件到本地 6. 查看文件内容 7. 显示文件的最后一千字节 8. 拷贝文件 9. 移动文件 10. 统计当前目录下各文件大小 11. 合并下载多个文件 12. 统…
1985
2
评论
heibaiying
3年前
Hadoop
Hadoop 系列(三)—— 分布式计算框架 MapReduce
Hadoop MapReduce 是一个分布式计算框架,用于编写批处理应用程序。编写好的程序可以提交到 Hadoop 集群上用于并行处理大规模的数据集。 MapReduce 作业通过将输入的数据集拆分为独立的块,这些块由 map 以并行的方式处理,框架对 map 的输出进行排序…
1119
3
1
Anwen
3年前
Hadoop
MapReduce 工作流程
产出的key/value record会暂存在内存中的一块环形缓冲区中(逻辑上成环形),写入record时会从环形上的两个位置写入,一个位置写入record,一个位置写入record的索引inde,这样做的好处是:要想在环上找到一个record不用遍历数据量较大的record序…
1563
4
评论
heibaiying
3年前
Hadoop
Hadoop 系列(一)—— 分布式文件系统 HDFS
HDFS (Hadoop Distributed File System)是 Hadoop 下的分布式文件系统,具有高容错、高吞吐量等特性,可以部署在低成本的硬件上。 NameNode : 负责执行有关 文件系统命名空间 的操作,例如打开,关闭、重命名文件和目录等。它同时还负责…
2050
20
1
heibaiying
3年前
Hadoop
Hadoop 系列(七)—— HDFS Java API
想要使用 HDFS API,需要导入依赖 hadoop-client。如果是 CDH 版本的 Hadoop,还需要额外指明其仓库地址: FileSystem 是所有 HDFS 操作的主入口。由于之后的每个单元测试都需要用到它,这里使用 @Before 注解进行标注。 FsPer…
5347
5
评论
heibaiying
3年前
Yarn
Hadoop 系列(二)—— 集群资源管理器 YARN
Apache YARN (Yet Another Resource Negotiator) 是 hadoop 2.0 引入的集群资源管理系统。用户可以将各种服务框架部署在 YARN 上,由 YARN 进行统一地管理和资源分配。 1. ResourceManager Resour…
1470
1
1
PeTu9465
4年前
Hadoop
Yarn
容器
Hadoop 学习系列(三)之 YARN 详细解析
Apache Hadoop YARN 是开源 Hadoop 分布式处理框架中的资源管理和作业调度技术。作为 Apache Hadoop 的核心组件之一,YARN 负责将系统资源分配给在 Hadoop 集群中运行的各种应用程序,并调度要在不同集群节点上执行的任务。 YARN 的基…
2666
7
评论
heibaiying
3年前
Hadoop
Hadoop 系列(五)—— Hadoop 集群环境搭建
这里搭建一个 3 节点的 Hadoop 集群,其中三台主机均部署 DataNode 和 NodeManager 服务,但只有 hadoop001 上部署 NameNode 和 ResourceManager 服务。 Hadoop 的运行依赖 JDK,需要预先安装。其安装步骤单独…
664
5
评论
PeTu9465
4年前
架构
Hadoop
HDFS
Hadoop入门(二)之 HDFS 详细解析
Hadoop 生态是一个庞大的、功能齐全的生态,但是围绕的还是名为 Hadoop 的分布式系统基础架构,其核心组件由四个部分组成,分别是:Common、HDFS、MapReduce 以及 YARN。 YARN 是 Hadoop 架构升级后,目前广泛使用的资源管理器。 小目标是为…
3492
21
评论
PeTu9465
4年前
Hadoop
Java
算法
Hadoop 学习系列(四)之 MapReduce 原理讲解
本篇文章将会介绍 Hadoop 重要的计算框架 MapReduce。 实际运行层面,即算法逻辑作业在分布式主机中是以什么形式和什么流程运行的,因为自 MapReduce version2 以后,作业都是提交给 YARN 进行管理,所以本文将不会介绍此部分。 MapReduce是…
1.2w
30
2