正文:
1. hadoop 分布式计算/存储 , 开源框架
1.1 核心组件
1.1.1 hdfs: 分布式存储
1.1.2 yarn: 资源管理
1.1.3 mapreduce:分布式运算
2. hive 查询分析 [sql on hadoop] 数据仓库工具
2.1 数据仓库中的数据有这两个特点
2.1.1 最全的历史数据(海量)
2.1.2 相对稳定的: 指的是数据仓库不同于业务系统数据库,数据经常会被更新,数据一旦进入数据仓库,很少会被更新和删除,只会被大量查询
2.2 Hive中的表是纯逻辑表,就只是表的定义等,即表的元数据。Hive本身不存储数据,它完全依赖HDFS和MapReduce。这样就可以将结构化的数据文件映射为为一张数据库表,并提供SQL查询功能,并将SQL语句最终转换为MapReduce任务进行运行。使用hive进行查询分析会有一定的时间消耗,不适合实时查询的场景.
3. sqoop 大数据中数据同步工具
主要用于在Hadoop(Hive)与传统的数据库(mysql、postgresql...)间进行数据的传递,可以将一个关系型数据库(例如 : MySQL ,Oracle ,Postgres等)中的数据导进到Hadoop的HDFS中,也可以将HDFS的数据导进到关系型数据库中。
4. hbase 是基于Hadoop的数据库,一个分布式、可扩展、大数据的存储.HBase可以用来进行实时查询.
5. hue cdh专门的一套web管理器(有空了解一下),它包括3个部分hue ui,hue server,hue db。hue提供所有的cdh组件的shell界面的接口。你可以在hue编写mr,查看修改hdfs的文件,管理hive的元数据,运行Sqoop,编写Oozie工作流等大量工作。
默认基于轻量级sqlite数据库管理会话数据,用户认证和授权,可以自定义为MySQL、 Postgresql,以及Oracle
基于文件浏览器(File Browser)访问HDFS
基于Hive编辑器来开发和运行Hive查询
支持基于Solr进行搜索的应用,并提供可视化的数据视图,以及仪表板(Dashboard)
支持基于Impala的应用进行交互式查询
支持Spark编辑器和仪表板(Dashboard)
支持Pig编辑器,并能够提交脚本任务
支持Oozie编辑器,可以通过仪表板提交和监控Workflow、Coordinator和Bundle
支持HBase浏览器,能够可视化数据、查询数据、修改HBase表
支持Metastore浏览器,可以访问Hive的元数据,以及HCatalog
支持Job浏览器,能够访问MapReduce Job(MR1/MR2-YARN)
支持Job设计器,能够创建MapReduce/Streaming/Java Job
支持Sqoop 2编辑器和仪表板(Dashboard)
支持ZooKeeper浏览器和编辑器
支持MySql、PostGresql、Sqlite和Oracle数据库查询编辑器
正文结束.
不当之处 还请不吝赐教.