开森滴玩大数据——Hadoop

173 阅读1分钟

前言:

学习hadoop,需要有如下技术傍身——

java,Liunx, sql


Hadoop的概念

1. hadoop特点
reliable, scalable, distributed computing. 
2.hadoop主要包含的模块:
hadoop common :对其他框架的支持
hadoop distributed file system (HDFS) :分布式文件系统 。数据存储
hadoop yarn :资源调度系统 。 负责作业调度,集群资源管理
hadoop mapreduce : 计算框架 。基于yarn ,并行的处理框架
3.hadoop优势
一可靠性
1数据存储:数据块,多副本
2数据计算:重新调度作业计算(就算失败,可以重新调度作业执行)
二扩展性
1存储计算资源不够,可以横向的线性扩展机器
2一个集群可以包含千计的节点
4.hadoop生态圈
狭义hadoop:一个分布式系统基础框架。是一个平台,什么样的平台呢?是一个适合大数据分布式存储(HDFS),分布式计算(MapReduce)和资源调度(Yarn)的平台。
广义hadoop:hadoop生态系统。平时说的hadoop只是其中最基础最重要的一个部分。
生态系统中每一个子系统只能解决某一个特定的问题域(MapReduce只解决大数据离线处理)。
生态系统由小而精的多个小系统构成的。
广义hadoop 生态系统构


目录

开森滴玩大数据——Hadoop

开森滴玩大数据——HDFS https://juejin.cn/post/6844903952576675854

开森滴玩大数据——Yarn

开森滴玩大数据——MapReduce

开森滴玩大数据——单机Demo

开森滴玩大数据——搭建Yarn集群