hadoop,hive,sqoop,hbase,hue 简介1. hadoop 分布式计算/存储 , 开源框架 2. h

正文:

1. hadoop 分布式计算/存储 , 开源框架

1.1 核心组件

1.1.1 hdfs: 分布式存储

1.1.2 yarn: 资源管理

1.1.3 mapreduce：分布式运算

2. hive 查询分析 [sql on hadoop] 数据仓库工具

2.1 数据仓库中的数据有这两个特点

2.1.1 最全的历史数据（海量）

2.1.2 相对稳定的: 指的是数据仓库不同于业务系统数据库，数据经常会被更新，数据一旦进入数据仓库，很少会被更新和删除，只会被大量查询

2.2 Hive中的表是纯逻辑表，就只是表的定义等，即表的元数据。Hive本身不存储数据，它完全依赖HDFS和MapReduce。这样就可以将结构化的数据文件映射为为一张数据库表，并提供SQL查询功能，并将SQL语句最终转换为MapReduce任务进行运行。使用hive进行查询分析会有一定的时间消耗,不适合实时查询的场景.

3. sqoop 大数据中数据同步工具

主要用于在Hadoop(Hive)与传统的数据库(mysql、postgresql...)间进行数据的传递，可以将一个关系型数据库（例如： MySQL ,Oracle ,Postgres等）中的数据导进到Hadoop的HDFS中，也可以将HDFS的数据导进到关系型数据库中。

4. hbase 是基于Hadoop的数据库，一个分布式、可扩展、大数据的存储.HBase可以用来进行实时查询.

5. hue cdh专门的一套web管理器(有空了解一下)，它包括3个部分hue ui，hue server，hue db。hue提供所有的cdh组件的shell界面的接口。你可以在hue编写mr，查看修改hdfs的文件，管理hive的元数据，运行Sqoop，编写Oozie工作流等大量工作。

HUE官方地址http://gethue.com/

默认基于轻量级sqlite数据库管理会话数据，用户认证和授权，可以自定义为MySQL、 Postgresql，以及Oracle
基于文件浏览器（File Browser）访问HDFS
基于Hive编辑器来开发和运行Hive查询
支持基于Solr进行搜索的应用，并提供可视化的数据视图，以及仪表板（Dashboard）
支持基于Impala的应用进行交互式查询
支持Spark编辑器和仪表板（Dashboard）
支持Pig编辑器，并能够提交脚本任务
支持Oozie编辑器，可以通过仪表板提交和监控Workflow、Coordinator和Bundle
支持HBase浏览器，能够可视化数据、查询数据、修改HBase表
支持Metastore浏览器，可以访问Hive的元数据，以及HCatalog
支持Job浏览器，能够访问MapReduce Job（MR1/MR2-YARN）
支持Job设计器，能够创建MapReduce/Streaming/Java Job
支持Sqoop 2编辑器和仪表板（Dashboard）
支持ZooKeeper浏览器和编辑器
支持MySql、PostGresql、Sqlite和Oracle数据库查询编辑器

正文结束.

不当之处还请不吝赐教.