在查阅了众多文章+各种尝试之后,做个记录方便回看。
1、JDK的安装及环境变量配置(本人安装的是JDK8)
a.JDK的安装:运行安装包,有需要可自行修改安装路径。
b.右击电脑-->属性-->高级系统设置-->高级-->环境变量。之后,在系统变量下点击新建,弹出一个框,可对其进行如下编辑:
c.在系统变量下选择Path,点击编辑-->新建,添加路径指定到安装JDK的bin目录,路径可写为:
%JAVA_HOME%\bin
%JAVA_HOME%\jre\bin
本人未进行classpath的配置(官网上说对classpath的配置要谨慎),可参考如下链接: docs.oracle.com/javase/tuto…
d.在cmd下输入java或javac或java -version命令,可用于检测环境变量是否配置成功。
2、spark的安装
a.下载
到spark.apache.org/downloads.h… 中下载Spark(选择带有Hadoop版本的Spark), 也可通过国内镜像源下载,如清华大学镜像:mirrors.tuna.tsinghua.edu.cn/
b.解压
下载的文件直接解压即可用。
c.环境变量配置
系统变量设置后,在cmd中输入spark-shell命令,会出现spark图标,但同时也出现一些错误信息,如下
这里主要是因为Spark是基于hadoop的,所以这里也有必要配置一个Hadoop的运行环境。 接下来,我们还需安装Hadoop。
3、Hadoop安装
a.下载并解压
由于下载的Spark是基于Hadoop 2.7的,我选择下载的是hadoop-2.7.7版本。
注意:需以管理员身份进行解压。
附: 打开开始菜单,输入关键字WinRAR,找到该软件。
b.环境变量的配置
在cmd输入spark-shell仍会报没有安装hadoop时的错误,是因为Hadoop的bin目录下没有winutils.exe文件。
解决方法1:
a.可以到github.com/steveloughr… 选择你安装的Hadoop版本号,然后进入到bin目录下,找到winutils.exe文件并下载,并将下载的winutils.exe拷贝到hadoop的bin目录下。(因为hadoop主要基于linux编写,这个winutil.exe主要用于模拟linux下的目录环境。因此hadoop放在windows下运行的时候,需要这个辅助程序才能运行。)
b.hadoop.dll放入Windows\Sytem32\中。
解决方法2:
在网上下载hadoop及其对应的window压缩包,将windows压缩包解压之后bin和etc文件夹覆盖hadoop中的bin和etc文件夹。
但会出现问题:
检查发现自己的Java环境变量配置并无问题。
于是,对hadoop包下的etc/hadoop中的hadoop-env.cmd文件进行编辑,如下:
由于复制过来的文件默认jdk在C盘,于是修改为我的jdk对应的安装路径。
之后,在cmd命令行里运行spark-shell命令,显示如下,表明安装成功。