HADOOP(一)

158 阅读1分钟

什么是HADOOP

  • 1.HADOOP是apache旗下的一套开源软件平台
  • 2.HADOOP提供过的功能:利用服务器集群,根据用户的自定义业务逻辑,对海量的数据进行分布式处理。
  • 3.HADOOP的核心组件有:HDFS(分布式文件系统)、YARN(运算资源调度系统)、MAPREDUCE(分布式运算编程框架)
  • 4.广义上来讲,HADOOP通常是指一个更广泛的概念--HADOOP生态圈

HADOOP应用案例

  • 1.应用于数据服务基础平台建设
  • 2.用于用户画像
  • 3.用于网站点击流日志数据挖掘

HADOOP生态圈以及各组成部分的简介

  • 1.HDFS(分布式文件系统)
  • 2.Mapreduce(分布式计算框架)
  • 3.Yarn(分布式资源管理器)
  • 4.HBASE(分布式列存数据库)
  • 5.Zookeeper(分布式协作服务)
  • 6.HIVE(数据仓库)
  • 7.Pig(ad-hoc脚本)
  • 8.Sqoop(数据ETL/)
  • 9.Flume(日志收集工具)
  • 10.Mahout(数据挖掘算法库)
  • 11.Oozie(工作流调度器)
  • 12.Mesos(分布式资源管理器)
  • 13.Tachyon(分布式内存文件系统)
  • 14.Tez(DAG计算模型)
  • 15.Spark(内存DAG计算模型)
  • 16.Giraph(图计算模型)
  • 17.GraphX(图计算模型)
  • 18.MLib(机器学习库)
  • 19.Streaming(流计算模型)
  • 20.Kafka(分布式消息队列)
  • 21.Phoenix(hbase sql接口)
  • 22.ranger(安全管理工具)
  • 23.knox(hadoop安全网关)
  • 24.falcon(数据生命周期管理工具)
  • 25.Ambari(安全部署配置管理工具)