首页
沸点
课程
数据标注
HOT
AI Coding
更多
直播
活动
APP
插件
直播
活动
APP
插件
搜索历史
清空
创作者中心
写文章
发沸点
写笔记
写代码
草稿箱
创作灵感
查看更多
登录
注册
确定删除此收藏集吗
删除后此收藏集将被移除
取消
确定删除
确定删除此文章吗
删除后此文章将被从当前收藏集中移除
取消
确定删除
编辑收藏集
名称:
描述:
0
/100
公开
当其他人关注此收藏集后不可再更改为隐私
隐私
仅自己可见此收藏集
取消
确定
hadoop
订阅
samjustin
更多收藏集
微信扫码分享
微信
新浪微博
QQ
10篇文章 · 0订阅
初识Hadoop
初始大数据什么是大数据?学习基础要求Hadoop的功能和优势hadoop是开源的、分布式存储、分布式计算平台,可以用来搭建大型数据仓库,PB级数据的存储、处理、分析、统计等业务Hadoop包括两个核心
Hadoop 学习系列(四)之 MapReduce 原理讲解
本篇文章将会介绍 Hadoop 重要的计算框架 MapReduce。 实际运行层面,即算法逻辑作业在分布式主机中是以什么形式和什么流程运行的,因为自 MapReduce version2 以后,作业都是提交给 YARN 进行管理,所以本文将不会介绍此部分。 MapReduce是…
Hadoop入门(二)之 HDFS 详细解析
Hadoop 生态是一个庞大的、功能齐全的生态,但是围绕的还是名为 Hadoop 的分布式系统基础架构,其核心组件由四个部分组成,分别是:Common、HDFS、MapReduce 以及 YARN。 YARN 是 Hadoop 架构升级后,目前广泛使用的资源管理器。 小目标是为…
Hadoop学习(二)——MapReduce\Yarn架构
本文先讲MapReduce 1.x的框架。再讲MapReduce 1.x升级改进后MapReduce 2.x/Yarn的框架。目前主要是用MapReduce 2.x/Yarn的框架。 用户编写的MapReduce程序通过Client提交到JobTracker端;同时,用户可通过…
Hadoop学习(一)——HDFS分布式文件系统
HDFS是Hadoop Distribute File System 的简称,也就是Hadoop的一个分布式文件系统。 分布式文件系统(DistributedFileSystem) 是指文件系统管理的物理存储资源不一定直接连接在本地节点上,而是通过计算机网络与节点相连。分布式文…
兄弟,用大白话告诉你小白都能看懂的Hadoop架构原理
Hadoop是目前大数据领域最主流的一套技术体系,包含了多种技术。 包括HDFS(分布式文件系统),YARN(分布式资源调度系统),MapReduce(分布式计算系统),等等。 有些朋友可能听说过Hadoop,但是却不太清楚他到底是个什么东西,这篇文章就用大白话给各位阐述一下。…
初入Hadoop生态系统
说起Hadoop,知道它是一个开源的、可运行于大规模集群上的分布式计算平台,实现了MapReduce计算模型和分布式文件系统HDFS等功能;但对Hadoop整个的生态不够了解,本着爱学习的态度,一块来探探hadoop的生态圈。 日常生活中我们一看到大数据和大数据相关的信息就会想…
hadoop 学习之路
在大数据时代,要想个性化实现业务的需求,还是得操纵各类的大数据软件,如:hadoop、hive、spark 等。笔者(阿里封神)混迹 Hadoop 圈子多年,经历了云梯 1、ODPS 等项目,目前 base 在 E-Mapreduce。在这,笔者尽可能梳理下 hadoop 的学习之路。
Hadoop YARN 介绍
YARN 是 Hadoop 集群的资源管理系统。Hadoop2.0 对 MapReduce 框架做了彻底的设计重构。YARN 的基本设计思想是将 MRv1 中的 JobTracker 拆分成了两个独立的服务:一个全局的资源管理器 ResourceManager 和每个应用程序特有的 ApplicationMaster。其中 ResourceManager 负责整个系统的资源管理和分配,而 ApplicationMaster 负责单个应用程序的管理。
经典分布式论文阅读:GFS
本文是GFS论文的学习笔记。GFS(Google File System)是谷歌针对分布式大数据处理而设计的大规模分布式文件系统。在设计GFS的时候主要考虑了应用场景的以下特性: GFS以目录树的形式组织文件,但是并没有提供类似POSIX标准的文件系统操作。操作只要包含创建、删…