hadoop,hive,sqoop,hbase,hue 简介

1,765 阅读3分钟

正文:

1. hadoop 分布式计算/存储 , 开源框架

    1.1 核心组件

       1.1.1 hdfs: 分布式存储

       1.1.2 yarn: 资源管理

       1.1.3 mapreduce分布式运算

2. hive 查询分析 [sql on hadoop] 数据仓库工具

    2.1 数据仓库中的数据有这两个特点

        2.1.1 最全的历史数据(海量)

        2.1.2 相对稳定的: 指的是数据仓库不同于业务系统数据库,数据经常会被更新,数据一旦进入数据仓库,很少会被更新和删除,只会被大量查询

   2.2 Hive中的表是纯逻辑表,就只是表的定义等,即表的元数据。Hive本身不存储数据,它完全依赖HDFSMapReduce。这样就可以将结构化的数据文件映射为为一张数据库表,并提供SQL查询功能,并将SQL语句最终转换为MapReduce任务进行运行。使用hive进行查询分析会有一定的时间消耗,不适合实时查询的场景.

3. sqoop 大数据中数据同步工具

   主要用于在Hadoop(Hive)与传统的数据库(mysql、postgresql...)间进行数据的传递,可以将一个关系型数据库(例如 : MySQL ,Oracle ,Postgres等)中的数据导进到HadoopHDFS中,也可以将HDFS的数据导进到关系型数据库中。

4. hbase 是基于Hadoop的数据库,一个分布式、可扩展、大数据的存储.HBase可以用来进行实时查询.

5. hue cdh专门的一套web管理器(有空了解一下),它包括3个部分hue ui,hue server,hue db。hue提供所有的cdh组件的shell界面的接口。你可以在hue编写mr,查看修改hdfs的文件,管理hive的元数据,运行Sqoop,编写Oozie工作流等大量工作。

HUE官方地址http://gethue.com/

   默认基于轻量级sqlite数据库管理会话数据,用户认证和授权,可以自定义为MySQL、      Postgresql,以及Oracle
   基于文件浏览器(File Browser)访问HDFS
   基于Hive编辑器来开发和运行Hive查询
   支持基于Solr进行搜索的应用,并提供可视化的数据视图,以及仪表板(Dashboard)
   支持基于Impala的应用进行交互式查询
   支持Spark编辑器和仪表板(Dashboard)
   支持Pig编辑器,并能够提交脚本任务
   支持Oozie编辑器,可以通过仪表板提交和监控Workflow、Coordinator和Bundle
   支持HBase浏览器,能够可视化数据、查询数据、修改HBase表
   支持Metastore浏览器,可以访问Hive的元数据,以及HCatalog
   支持Job浏览器,能够访问MapReduce Job(MR1/MR2-YARN)
   支持Job设计器,能够创建MapReduce/Streaming/Java Job
   支持Sqoop 2编辑器和仪表板(Dashboard)
   支持ZooKeeper浏览器和编辑器
   支持MySql、PostGresql、Sqlite和Oracle数据库查询编辑器

正文结束.

不当之处 还请不吝赐教.