前言:
学习hadoop,需要有如下技术傍身——
java,Liunx, sql
Hadoop的概念
1. hadoop特点
reliable, scalable, distributed computing.
2.hadoop主要包含的模块:
hadoop common :对其他框架的支持 hadoop distributed file system (HDFS) :分布式文件系统 。数据存储 hadoop yarn :资源调度系统 。 负责作业调度,集群资源管理 hadoop mapreduce : 计算框架 。基于yarn ,并行的处理框架 |
3.hadoop优势
一可靠性 1数据存储:数据块,多副本 2数据计算:重新调度作业计算(就算失败,可以重新调度作业执行) 二扩展性 1存储计算资源不够,可以横向的线性扩展机器 2一个集群可以包含千计的节点 |
4.hadoop生态圈
狭义hadoop:一个分布式系统基础框架。是一个平台,什么样的平台呢?是一个适合大数据分布式存储(HDFS),分布式计算(MapReduce)和资源调度(Yarn)的平台。 广义hadoop:hadoop生态系统。平时说的hadoop只是其中最基础最重要的一个部分。 生态系统中每一个子系统只能解决某一个特定的问题域(MapReduce只解决大数据离线处理)。 生态系统由小而精的多个小系统构成的。 |
广义hadoop 生态系统构
目录
开森滴玩大数据——Hadoop
开森滴玩大数据——HDFS https://juejin.cn/post/6844903952576675854
开森滴玩大数据——Yarn
开森滴玩大数据——MapReduce
开森滴玩大数据——单机Demo
开森滴玩大数据——搭建Yarn集群