基于CDH的大数据平台搭建

535 阅读3分钟

Apache Hadoop存在版本管理混乱、部署过程繁琐、升级过程复杂、兼容性差、安全性低等问题,CDH是Hadoop商业发行版之一,本文介绍基于Cloudera Manager的Cloudera Hadoop 6.1.0大数据平台搭建,简单易上手.

基础环境准备

1、CM和CDH包

准备cm的rpm包,cdh的parcel包,第1个链接内的需要完全下载,第2个链接内根据linux版本(centos6 or 7)下载;

cm的rpm包:

2、网络

若是在虚拟机上配置(须满足内存>6G,磁盘划分/至少40G,/data/10G),保证NAT模式下所有主机在同网段,且能访问外网。修改IP、网关、DNS;

vim /etc/sysconfig/network-scripts/ifcfg-ens33

首先,修改ifcfg-en33的dhcp自动分配修改为静态寻址,增加ip/掩码/网关配置;(网关不管怎么配,都不要配192.168.x.1,因为1号IP是VMnet8网卡的IP)。

TYPE="Ethernet"

 配置完成后通过service network restart 重启网卡设置,依然无法连接外网(ping www.baidu.com),可以增加默认dns;

route add default gw 192.168.242.2

其次,增加主机和主机名映射(/etc/hosts),关闭防火墙,关闭SElinux,设置多主机免密,开启http服务;

#cat /etc/hosts
#关闭防火墙,centos7之前版本
#vi /etc/selinux/config

3、免密

主机免密的方法:

主机A/B/C为例,设置免密登录的方法:

4、时钟同步

时钟同步(保证其他节点同cm节点时钟一致):

1、所有机器安装ntp :yum -y install ntp

5、http服务

开启http服务,/var/www/html/目录下会自动创建cm和cdh目录

yum -y install httpd

6、制作yum源

① 开启http服务

完成后,可通过rul查看文件,确保repodata文件夹一定要成功生成,不然后续无法通过!!!!

安装CDH

1、安装Cloudera-manager

这里使用默认的pgsql作为元数据库,可以自己安装mysql库,并将其作为元数据库;

# ① 安装必要rpm包

安装完成后提示如下说明cm安装成功,启动7180端口,用户名和密码都是admin;

验证:

(1)netstat -lnpt | grep 7180 端口有运行;

(2)查看日志:tail -f /var/log/cloudera-scm-server/cloudera-scm-server.log 提示ScmActive completed successfully

(3)web查看xx.xx.xx.xx:7180是否可以访问;

2、安装CDH

使用本地parcel包安装cdh(坑很多),cm的安装,web访问192.168.242.134:7180登录cm页面按照指引进行cdh安装。

① 存储库选择http://192.168.242.134/cm-6.1.0(确认http服务已开启,可以url访问)![](p3-juejin.byteimg.com/tos-cn-i-k3…)

② 修改cdh的parcels文件名称:

mv CDH-6.1.0-1.cdh6.1.0.p0.770702-el7.parcel.sha256 CDH-6.1.0-1.cdh6.1.0.p0.770702-el7.parcel.sha

③ 经常出现无法读取本地cdh的parcels包问题,需要重启installer;一般没用,还是外网下载。。。

# 卸载重装

帖子上说可以重启scm-server解决,但无效,可以在其下载一半返回页面,重新扫描可以解决;

2、配置cdh中的大数据相关组件

按照指引进行,记住数据库的登录名和密码;

初始化组件安装时容易出现主机资源不足,前期应该给cm节点足够的存储空间;

能够完成组件安装,就可以看见实时监控页面,后续扩容将后面补充;

历史好文推荐

  1. 从0到1搭建大数据平台之计算存储系统

  2. 从0到1搭建大数据平台之调度系统

  3. 从0到1搭建大数据平台之数据采集系统

  4. 如何从0到1搭建大数据平台