【Windows保姆级教程】零基础一次性搞定Hadoop+Spark+Hive环境配置,大数据毕设必备!避坑指南全程实战演示

171 阅读12分钟

💖💖作者:IT跃迁谷毕设展 💙💙个人简介:曾长期从事计算机专业培训教学,本人也热爱上课教学,语言擅长Java、微信小程序、Python、Golang、安卓Android等,开发项目包括大数据、深度学习、网站、小程序、安卓、算法。平常会做一些项目定制化开发、代码讲解、答辩教学、文档编写、也懂一些降重方面的技巧。平常喜欢分享一些自己开发中遇到的问题的解决办法,也喜欢交流技术,大家有技术代码这一块的问题可以问我! 💛💛想说的话:感谢大家的关注与支持! 💜💜 Java实战项目集 微信小程序实战项目集 Python实战项目集 安卓Android实战项目集 大数据实战项目集

💕💕文末获取源码

@TOC

Windows环境下大数据生态系统完整配置指南

好多本专业的同学电脑还没安装过大数据,有些就是电脑特别卡,安装不了虚拟机,所以我就在这里说一下,怎么在Windows电脑上直接安装Hadoop+Spark+Hive,帮大家避免踩一些不必要的坑,在这把经验分享给大家。

1. 环境变量配置详解

1.1 核心环境变量设置

环境变量这块很多同学都觉得麻烦,其实就是告诉电脑软件都装在哪里。我把配置列出来,大家照着设置就行:

基础环境变量配置清单:

  • HADOOP_HOMED:\hadoop-3.2.2\hadoop-3.2.2
  • HIVE_HOMED:\apache-hive-3.1.2-bin\apache-hive-3.1.2-bin
  • SPARK_HOMED:\spark-3.3.0-bin-hadoop3\spark-3.3.0-bin-hadoop3
  • JAVA_HOMEC:\PROGRA~1\Java\jdk1.8.0_111
  • CLASSPATH.;%JAVA_HOME%\lib;%JAVA_HOME%\lib\dt.jar;%JAVA_HOME%\lib\tools.jar;

1.2 Path路径配置技巧

Path这里要注意顺序,我建议把Java的路径放前面,不然容易出问题。有些同学电脑上装了好几个Java版本,路径顺序搞错了就会报错。

Path环境变量添加项目:

  • %JAVA_HOME%\bin
  • %JAVA_HOME%\jre\bin
  • %HADOOP_HOME%\bin
  • %HADOOP_HOME%\sbin
  • %HIVE_HOME%\bin
  • %SPARK_HOME%\bin

HADOOP_HOME设置好了,系统就知道Hadoop装在哪个文件夹了,其他组件也能找到对应的配置文件。这样各个软件之间就能正常通信了。

2. 版本选择与兼容性分析

2.1 推荐版本组合

我用的是Hadoop 3.2.2、Spark 3.3.0、Hive 3.1.2这个组合。不是随便选的,我试了好几种搭配,这套最稳定。

为什么选这个版本组合:

Hadoop 3.x比2.x好用多了,处理大文件的速度快了不少。Spark 3.3.0和Hadoop 3.2.2配合得很好,我做实验的时候明显感觉内存占用更合理了。

2.2 Windows系统适配

Windows环境确实比Linux麻烦一些,但对我们学生来说这是最现实的选择。这个版本组合在Windows下运行还算稳定,我用了半年多没出过大问题。

有些同学问为什么不用虚拟机,主要还是电脑配置不够。我室友就是8G内存,开虚拟机卡得不行,直接在Windows上装反而更流畅。

3. Java环境配置要点

3.1 路径格式注意事项

Java路径这里特别容易出错。我建议用C:\PROGRA~1\Java\jdk1.8.0_111这种写法,能避免路径里空格引起的问题。我刚开始就是因为路径格式错了,折腾了好几天才发现。

3.2 CLASSPATH配置说明

CLASSPATH里面的那些jar包,dt.jar和tools.jar看起来没用,但是少了有时候会报奇怪的错。我建议还是配全了,反正也不占多少空间。

CLASSPATH包含的核心组件:

  • dt.jar:图形界面相关的类库
  • tools.jar:编译工具相关的类库

虽然平时写代码用不到,但配置完整了能避免一些意外的报错。

4. 数据库集成配置

4.1 MySQL元数据存储设置

Hive需要用数据库存储一些基本信息,我选择MySQL因为比较稳定。用Navicat建hive数据库的时候,编码格式记得选utf8mb4,不要选普通的utf8。这个细节很重要,处理中文数据的时候会用到。

4.2 Schema初始化步骤

运行hive --service schematool -dbType mysql -initSchema这个命令,系统会在MySQL里建一些表,用来存储数据库和表的信息。我有个同学就是这一步没做好,后面Hive一直启动不了。

这一步如果报错,多半是数据库连接有问题,检查一下MySQL服务有没有启动,用户名密码对不对。

5. 启动验证与测试

5.1 命令行验证方法

配置完环境变量,这几个命令都要能正常运行:

  • hadoop -version
  • java -version
  • spark-shell

如果某个命令报错,说明对应的环境变量没配对。我建议大家一步一步来,不要着急。

5.2 Spark启动验证

spark-shell能启动就说明基本没问题了。第一次看到Spark的logo和Scala命令行,还挺有成就感的。我记得当时还截图发朋友圈了。

5.3 快捷启动设置

我把start-all.cmd拖到桌面做了快捷方式,这样每次开发的时候一点就能启动所有服务。这个脚本会把HDFS和YARN的相关服务都启动起来,挺方便的。

6. 实际使用经验分享

6.1 常见问题处理

刚开始配置的时候确实容易出错,主要还是细节没注意到。我总结了几个容易出问题的地方:

环境变量配置完记得重启命令行,不然新配置不生效。有些同学配置完直接测试,当然不行。

路径里不要有中文,我见过同学把软件装在"大数据工具"文件夹下,各种报错。

6.2 学习建议

整套环境搭好了,就可以开始学具体的编程了。建议大家先从简单的例子开始,比如词频统计、数据排序这些基础操作。

有了这个环境,做大数据方面的毕业设计的时候就不用担心了。


提醒:配置过程中如果遇到问题,不要着急重装。多半是某个小地方设置错了,仔细检查一下环境变量和路径格式。

希望这个配置教程对同专业的同学有帮助。有问题可以在问,我看到会回复的。

💕💕 Java实战项目集 微信小程序实战项目集 Python实战项目集 安卓Android实战项目集 大数据实战项目集 💟💟如果大家有任何疑虑,欢迎在下方位置详细交流。