初识Hadoop

188 阅读1分钟

什么是Hadoop
Hadoop是Apache的一个开源的分布式计算平台,核心是以HDFS分布式文件系统和MapReduce分布 式计算框架构成,为用户提供了一套底层透明的分布式基础设施。

设计思想起源于Google GFS、MapReduce Paper

Hadoop基础组件

Hadoop集群
Hadoop集群包含HDFS分布式文件系统和YARN资源管理系统。

HDFS 提供海量数据的分布式存储。
HDFS是Hadoop分布式文件系统,具有高容错性、高伸缩性,允许用户基于廉价硬件部署,构建分 布式存储系统,为分布式计算存储提供了底层支持

YARN
为MapReduce分布式计算提供了统一资源调度,除了MapReduce,还有Spark和Flink等流式计算框架都可以运行在YARN上。

Zookeeper分布式协调服务
保障HDFS集群和YARN集群的高可用

MapReduce 提供离线分布式计算的功能
提供简单的API,允许用户在不了解底层细节的情况下,开发分布式并行程序,利用大规模集群资源,解决传统单机无法解决的大数据处理问题

现在Hadoop的生态发展越来越完善,比如包括了数据采集工具,数仓Hive,分布式数据库HBase等组件:

image.png

Hadoop时代带来了什么 image.png