盘点常见大数据平台

464 阅读3分钟

开启掘金成长之旅!这是我参与「掘金日新计划 · 12 月更文挑战」的第4天juejin.cn/post/716729…

简单讲讲4种常见的大数据平台

1.CDH

image.png 2.HDP

image.png

3.开源组件自行整合,版本兼容性自行调研。

4.TDH

image.png

漫谈CDH:

CDH是Cloudera的100%开源平台发行版,包括Apache Hadoop,专为满足企业需求而构建。CDH提供开箱即用的企业使用所需的一切。通过将Hadoop与十几个其他关键的开源项目集成,Cloudera创建了一个功能先进的系统,可帮助您执行端到端的大数据工作流程。

简单来说:CDH 是一个拥有集群自动化安装、中心化管理、集群监控、报警功能的一个工具(软件),使得集群的安装可以从几天的时间缩短为几个小时,运维人数也会从数十人降低到几个人,极大的提高了集群管理的效率。

Cloudera公司合并Hortonworks公司之后(2018年10月份合并的),会将CDH和HDP这两个产品进行合并,推出一款统一旗舰产品CDP(Cloudera Data Platform),它也是Cloudera新兴的“企业数据云”战略的核心。

Cloudera宣布他们将继续支持现有的CDH和HDP平台一直到2022年1月,同时在这3年对现有的产品还会进行交叉组合。 目前CDP还不是特别成熟,所以目前在企业中使用的时候还是优先使用CDH或者HDP。

漫谈HDP:

Hortonworks公司,由Yahoo和Benchmark Capital于2011年7月联合创建,出身于名门Yahoo,Hortonworks拥有着许多Hadoop架 构师和源代码贡献者,这些源代码贡献者以前均效力于Yahoo,而且已经为Apache Hadoop项目贡献了超过80%的源代码。

我本人在预先学习的时候就是使用HDP的整套环境,部署简单,有quickstart版本,CDH也有相对应的学习版本。

HDP公司后来和CDH做了合并,共同维护CDH项目,原HDP的管理组件Ambari上次维护是在20年,最近重启,重新作为Apache项目开始维护起来,说不定HDP sandbox后续还有未来。

开源组件部署调研:

开源组件适合针对单一组件进行功能上的学习,可以参考尚硅谷大数据相关课程的部署,但是组件的兼容性,以及整体的稳定性都不太适用于企业级用途,所以学习组件原理和相关Api时,可以搭建伪分布式用来学习。

星环TDH:

很多组件也是基于开源组件二次研发,定制开发的,主要应用于金融行业,尤其银行用的比较多,星环是一家真正做大数据技术的公司,国内像大数据平台二次开发做的比较好的还有华为鲲鹏,等等一系列,大厂大数据平台几乎都是自研,整合开源组件二次开发来的。

学习建议:

平台1:HDP sandbox 2.×版本 后续我分享vbox沙箱虚拟机

平台2:CDH-QuickStart 后续我分享安装包

平台3:开源组件搭建,适合单一化组件学习

平台4:CDH6.3.2 全分布式搭建(企业主流,推荐掌握)