HADOOP(一)
什么是HADOOP
- 1.HADOOP是apache旗下的一套开源软件平台
- 2.HADOOP提供过的功能:利用服务器集群,根据用户的自定义业务逻辑,对海量的数据进行分布式处理。
- 3.HADOOP的核心组件有:HDFS(分布式文件系统)、YARN(运算资源调度系统)、MAPREDUCE(分布式运算编程框架)
- 4.广义上来讲,HADOOP通常是指一个更广泛的概念--HADOOP生态圈
HADOOP应用案例
- 1.应用于数据服务基础平台建设
- 2.用于用户画像
- 3.用于网站点击流日志数据挖掘
HADOOP生态圈以及各组成部分的简介
- 1.HDFS(分布式文件系统)
- 2.Mapreduce(分布式计算框架)
- 3.Yarn(分布式资源管理器)
- 4.HBASE(分布式列存数据库)
- 5.Zookeeper(分布式协作服务)
- 6.HIVE(数据仓库)
- 7.Pig(ad-hoc脚本)
- 8.Sqoop(数据ETL/)
- 9.Flume(日志收集工具)
- 10.Mahout(数据挖掘算法库)
- 11.Oozie(工作流调度器)
- 12.Mesos(分布式资源管理器)
- 13.Tachyon(分布式内存文件系统)
- 14.Tez(DAG计算模型)
- 15.Spark(内存DAG计算模型)
- 16.Giraph(图计算模型)
- 17.GraphX(图计算模型)
- 18.MLib(机器学习库)
- 19.Streaming(流计算模型)
- 20.Kafka(分布式消息队列)
- 21.Phoenix(hbase sql接口)
- 22.ranger(安全管理工具)
- 23.knox(hadoop安全网关)
- 24.falcon(数据生命周期管理工具)
- 25.Ambari(安全部署配置管理工具)