这是我参与8月更文挑战的第1天,活动详情查看:8月更文挑战
Hadoop是Java编写的开源的大数据框架, 提供可靠的,可伸缩的分布式计算, 现在由Apache托管。
Hadoop的官网: hadoop.apache.org/
Hadoop的下载页面:hadoop.apache.org/releases.ht…
现在最新的版本是3.3.1
安装配置流程
1. 上传与解压
下载后,上传到Linux服务器,通过
tar -xvf hadoop-3.3.1.tar.gz 解压文件
2. 修改JAVA_HOME配置
修改安装目录下的etc/hadoop/hadoop-env. sh
找到export JAVA_HOME=$JAVA_HOME这一行,把注释去掉。
3. 修改配置文件etc/hadoop/core-site.xml
在标签下增加:
<property>
<name>fs.defaultFS</name>
<value>hdfs://localhost:9090</value>
</property>
<property>
<name>hadoop.tmp.dir</name>
<value>/usr/local/software/hadoop/tmp</value>
</property>
这里如果不配置的话,fs.defaultFS不配置的话,Hadoop就是单机版
4、配置etc/hadoop/hdfs-site.xml
在标签下增加:
<property>
<name>dfs.replication</name>
<value>1</value>
</property>
这里是hdfs的文件备份数,当磁盘出错时,文件可以恢复
5、ssh免登录
在默认目录下,执行下面的命令
$ ssh-keygen -t rsa -P '' -f ~/.ssh/id_rsa
$ cat ~/.ssh/id_rsa.pub >> ~/.ssh/authorized_keys
$ chmod 0600 ~/.ssh/authorized_keys
使用ssh localhost, 如果没有提示需要输入用户密码,则配置成功
启动hadoop
在启动之前,先要格式化namenode
bin/hdfs namenode -format
没有格式化的话,namenode是无法启动的。
进入Hadoop的安装目录,输入 sbin/start-all.sh 启动hadoop的所有服务。
测试Hadoop的Map Reduce功能
Hadoop里面带了一下例子可以对Hadoop进行测试。
$ bin/hadoop jar share/hadoop/mapreduce/hadoop-mapreduce-examples-3.3.1.jar grep input output 'dfs[a-z.]+'
运行完了,output会生成分析的结果
可以在浏览器上输入http://localhost:9870, 进入hadoop的页面管理