💖💖作者:IT跃迁谷毕设展 💙💙个人简介:曾长期从事计算机专业培训教学,本人也热爱上课教学,语言擅长Java、微信小程序、Python、Golang、安卓Android等,开发项目包括大数据、深度学习、网站、小程序、安卓、算法。平常会做一些项目定制化开发、代码讲解、答辩教学、文档编写、也懂一些降重方面的技巧。平常喜欢分享一些自己开发中遇到的问题的解决办法,也喜欢交流技术,大家有技术代码这一块的问题可以问我! 💛💛想说的话:感谢大家的关注与支持! 💜💜 Java实战项目集 微信小程序实战项目集 Python实战项目集 安卓Android实战项目集 大数据实战项目集
💕💕文末获取源码
@TOC
Windows环境下大数据生态系统完整配置指南
好多本专业的同学电脑还没安装过大数据,有些就是电脑特别卡,安装不了虚拟机,所以我就在这里说一下,怎么在Windows电脑上直接安装Hadoop+Spark+Hive,帮大家避免踩一些不必要的坑,在这把经验分享给大家。
1. 环境变量配置详解
1.1 核心环境变量设置
环境变量这块很多同学都觉得麻烦,其实就是告诉电脑软件都装在哪里。我把配置列出来,大家照着设置就行:
基础环境变量配置清单:
- HADOOP_HOME:
D:\hadoop-3.2.2\hadoop-3.2.2 - HIVE_HOME:
D:\apache-hive-3.1.2-bin\apache-hive-3.1.2-bin - SPARK_HOME:
D:\spark-3.3.0-bin-hadoop3\spark-3.3.0-bin-hadoop3 - JAVA_HOME:
C:\PROGRA~1\Java\jdk1.8.0_111 - CLASSPATH:
.;%JAVA_HOME%\lib;%JAVA_HOME%\lib\dt.jar;%JAVA_HOME%\lib\tools.jar;
1.2 Path路径配置技巧
Path这里要注意顺序,我建议把Java的路径放前面,不然容易出问题。有些同学电脑上装了好几个Java版本,路径顺序搞错了就会报错。
Path环境变量添加项目:
%JAVA_HOME%\bin%JAVA_HOME%\jre\bin%HADOOP_HOME%\bin%HADOOP_HOME%\sbin%HIVE_HOME%\bin%SPARK_HOME%\bin
HADOOP_HOME设置好了,系统就知道Hadoop装在哪个文件夹了,其他组件也能找到对应的配置文件。这样各个软件之间就能正常通信了。
2. 版本选择与兼容性分析
2.1 推荐版本组合
我用的是Hadoop 3.2.2、Spark 3.3.0、Hive 3.1.2这个组合。不是随便选的,我试了好几种搭配,这套最稳定。
为什么选这个版本组合:
Hadoop 3.x比2.x好用多了,处理大文件的速度快了不少。Spark 3.3.0和Hadoop 3.2.2配合得很好,我做实验的时候明显感觉内存占用更合理了。
2.2 Windows系统适配
Windows环境确实比Linux麻烦一些,但对我们学生来说这是最现实的选择。这个版本组合在Windows下运行还算稳定,我用了半年多没出过大问题。
有些同学问为什么不用虚拟机,主要还是电脑配置不够。我室友就是8G内存,开虚拟机卡得不行,直接在Windows上装反而更流畅。
3. Java环境配置要点
3.1 路径格式注意事项
Java路径这里特别容易出错。我建议用C:\PROGRA~1\Java\jdk1.8.0_111这种写法,能避免路径里空格引起的问题。我刚开始就是因为路径格式错了,折腾了好几天才发现。
3.2 CLASSPATH配置说明
CLASSPATH里面的那些jar包,dt.jar和tools.jar看起来没用,但是少了有时候会报奇怪的错。我建议还是配全了,反正也不占多少空间。
CLASSPATH包含的核心组件:
- dt.jar:图形界面相关的类库
- tools.jar:编译工具相关的类库
虽然平时写代码用不到,但配置完整了能避免一些意外的报错。
4. 数据库集成配置
4.1 MySQL元数据存储设置
Hive需要用数据库存储一些基本信息,我选择MySQL因为比较稳定。用Navicat建hive数据库的时候,编码格式记得选utf8mb4,不要选普通的utf8。这个细节很重要,处理中文数据的时候会用到。
4.2 Schema初始化步骤
运行hive --service schematool -dbType mysql -initSchema这个命令,系统会在MySQL里建一些表,用来存储数据库和表的信息。我有个同学就是这一步没做好,后面Hive一直启动不了。
这一步如果报错,多半是数据库连接有问题,检查一下MySQL服务有没有启动,用户名密码对不对。
5. 启动验证与测试
5.1 命令行验证方法
配置完环境变量,这几个命令都要能正常运行:
hadoop -versionjava -versionspark-shell
如果某个命令报错,说明对应的环境变量没配对。我建议大家一步一步来,不要着急。
5.2 Spark启动验证
spark-shell能启动就说明基本没问题了。第一次看到Spark的logo和Scala命令行,还挺有成就感的。我记得当时还截图发朋友圈了。
5.3 快捷启动设置
我把start-all.cmd拖到桌面做了快捷方式,这样每次开发的时候一点就能启动所有服务。这个脚本会把HDFS和YARN的相关服务都启动起来,挺方便的。
6. 实际使用经验分享
6.1 常见问题处理
刚开始配置的时候确实容易出错,主要还是细节没注意到。我总结了几个容易出问题的地方:
环境变量配置完记得重启命令行,不然新配置不生效。有些同学配置完直接测试,当然不行。
路径里不要有中文,我见过同学把软件装在"大数据工具"文件夹下,各种报错。
6.2 学习建议
整套环境搭好了,就可以开始学具体的编程了。建议大家先从简单的例子开始,比如词频统计、数据排序这些基础操作。
有了这个环境,做大数据方面的毕业设计的时候就不用担心了。
提醒:配置过程中如果遇到问题,不要着急重装。多半是某个小地方设置错了,仔细检查一下环境变量和路径格式。
希望这个配置教程对同专业的同学有帮助。有问题可以在问,我看到会回复的。
💕💕 Java实战项目集 微信小程序实战项目集 Python实战项目集 安卓Android实战项目集 大数据实战项目集 💟💟如果大家有任何疑虑,欢迎在下方位置详细交流。