食而无味,弃之可惜,前几天参加了北京某公司的一个大数据专题的训练营,感觉收获还是挺多的,也见识到了很多牛逼的人物,下面就来简单的分享一下当时遇到的问题吧
感觉好奇怪哦,我的技术栈明明是前端,怎么搞到大数据去了,算了,不说废话了,趁还年轻,多水几篇文章😈。
下面先贴一张大数据技术栈的思维导图:
了解了这些基本的东西之后,接下来就说下实操部分吧。
对电脑的配置的话,建议是window系统64bit,双系统当然最好,但是我用的是Vmware虚拟机,建议创建的每台虚拟机的cpu内存至少给到30G,不然后续的操作可能会有严重的错误甚至整个系统奔溃。其次,虚拟机所在的磁盘最好是一个独立的分区,并且容量不要低于100G(其实80G就差不多了),关于这些具体的操作可以去专门的博客搜索,都有详细介绍,这里主要介绍实操部分。
那看到这里,就可以直接开始了,开始之前最好安装一个final shell,便于后续搞明白linux文件系统之间的关系。程序截图在下面:
创建好第一台虚拟机后最好配置网关,不然后期你的虚拟机无法联网就难受了。这里简单说一下,因为这里的问题还是挺多的。
首先找到下图的配置项:
搞明白你电脑的IP网络地址的出入口在哪个区段,这个最好记下来,比如我的子网IP是192.168.241.0,网关是192.168.241.2,那么我在登录虚拟机后就需要输入命令:vi /etc/sysconfig/network-scripts/ifcfg-ens33,然后按照下面的模板进行配置:
这里一定要好好理解,好多人就是卡在这里。
ok,配置好之后可以按
esc,再按:wq退出编辑模式。
然后执行service network restart重启服务,然后执行ping www.baidu.com,若持续有数据返回,则证明配置成功,就可以跳过下面的step了。
如果你的电脑曾经配置过虚拟机,由于某些原因又卸载了,然后现在又进行新的尝试,那么大概率会遇到配置好了网关然而仍然ping不通的情况,此时去你的控制面板网络连接配置中也找不到VMware Virtual Ethernet Adapter for VMnet8这台机器,因为我遇到的就是第二种情况,当时卡了两天,着实难受。
但是也不要慌,此时需要下载ccleaner,因为你的电脑很可能因为你之前的操作,损坏了注册表,需要修复,这是你可以使用ccleaner扫描系统文件进行修复,然后重启虚拟机发现ping通了。 再次查看网络连接,发现有了这台机器:
这个方法也解决了一个难倒国内外大佬的问题,就是他们在安装新的虚拟机,比如Ubuntu的过程中,在终端会报错误代码:
wslResgisterDistribution failed with error:ox80070002,目前很多博客还没收录该问题的解决方案,所以这篇文章可能会帮助你。
配置成功之后就可以通过设置的网关连接final shell,如下图:
OK,到这一步,就已经成功了一大半啦。接下来就是Mysql的配置,这个比较简单,和在window系统终端操作是一样的道理,直接看图吧:
两条框起来的命令分别是linux系统启动Mysql服务和进入mysql终端系统的命令,为方便看文章的友友使用,先把两个命令粘出来:
/iddbs/mysql-5.7.36/bin/mysqld_safe --defaults-file=/dbdata/3306/3306.cfg &;/iddbs/mysql-5.7.36/bin/mysql -uroot -p -S /dbdata/3306/mysql.sock。
启动之后就可以在里面创建新的数据库,创建数据表,并通过Navicat进行连接:
就可以看到创建的数据库和表格啦。
接下来就是整个集群的搭建和部署了
那首先做好部署前的准备,整个集群的相关环境主要有:Hadoop,Zookeeper,HDFS,YARN
首先你需要在部署好的一台主机上进行配置,配置好之后进行克隆,克隆的主机数量需要根据实际情况来定,比如我这里克隆了3台,因为我的电脑配置并不高,所以克隆三台足够做实验就行。
克隆完毕后在final shell中分别进行连接,需要注意的是,每次重启虚拟机,几个相关的文件目录就会消失,因此连接后需要在每台机器中进行重新创建,命令如下:
mkdir -p /var/run/hadoop-hdfs/; chown -R e3base:e3base /var/run/hadoop-hdfs/; chmod -R 755 /var/run/hadoop-hdfs/
后续的操作直接贴图吧:
这个是更改用户权限的,因为某些操作需要权限才能继续操作,类似于window系统的“管理员身份”
这个是yarn的启动
整个集群启动完成之后,可以在浏览器中通过配置的端口号查看系统管理页面
这个是查看服务状态,必须是一个standby,一个active才可以,否则启动不正常。
这个是查看整个节点的一个状态
OK,到这一步的话,整个的集群就部署完成啦,后面可以做些小实验,实现数据的可视化操作,数据特征的分析等工作啦,由于时间关系,这篇文章就暂时到这里吧,886.