从零开始搭建大数据学习环境虚拟机创建与配置、IP设置、虚拟机克隆、FinalShell远程连接，搭建大数据基础学习环境

虚拟机创建与配置、IP设置、虚拟机克隆、FinalShell远程连接，搭建大数据基础学习环境

一、前期准备

1. 准备虚拟机软件（如VMware Workstation Pro/VMware Player，推荐稳定版，适配电脑系统版本）
2. 下载Linux系统镜像（大数据学习首选CentOS7/CentOS8，或Ubuntu Server版，建议64位，镜像文件为iso格式）
3. 安装FinalShell远程连接工具（Windows/Mac版均可，官网下载正版，无需额外配置环境，轻便易用）
4. 电脑基础配置要求：建议内存8G及以上（分配给虚拟机2G/4G）、硬盘空余空间50G+（虚拟机占用空间较大）、开启CPU虚拟化（BIOS中开启VT-x/AMD-V，需重启电脑操作）

二、第一步：创建基础虚拟机

打开VMware新建虚拟机

选择「典型（推荐）」配置（新手首选，简化步骤），高级用户可选择「自定义」精细配置
选择「安装程序光盘映像文件（iso）」，导入已下载的Linux系统镜像，勾选「稍后安装操作系统」（手动配置更适配大数据环境）

系统基础配置

客户机操作系统：选择「Linux」，版本匹配下载的镜像（如CentOS 7 64位）
虚拟机名称：命名规范（如bigdata-node01，便于后续集群搭建区分节点），选择虚拟机安装路径（非系统盘，避免占用C盘空间）

硬件资源分配

最大磁盘大小：建议20G及以上（大数据学习需存储安装包、日志、数据文件），选择「将虚拟磁盘拆分成多个文件」（便于移动和备份）
内存：单节点分配2G/4G（根据电脑总内存调整，如8G电脑给虚拟机2G），处理器：分配1核/2核，核心数1
网络适配器：先选择「桥接模式」（后续配置IP更便捷），暂不开启「虚拟机网络连接」

完成创建并编辑虚拟机设置

点击「编辑虚拟机设置」，检查硬件配置，移除无用设备（如打印机、软驱），减少资源占用
确认CD/DVD已加载Linux镜像，开启「启动时连接」

三、第二步：Linux系统初始化安装

启动虚拟机并选择安装模式

开启虚拟机，出现系统启动界面，选择「Install CentOS 7」（直接安装，不选测试模式）
等待系统加载安装程序，进入图形化安装界面（新手友好）

安装界面核心配置

语言选择：「中文（简体）」，地区选择「亚洲/上海」
日期和时间：同步当前电脑时间，开启网络时间同步
软件选择：选择「最小安装」（仅安装基础系统，后续手动安装大数据相关依赖，轻量化），可勾选「开发工具」（提前安装gcc、make等编译工具）
安装位置：选择已创建的虚拟磁盘，点击「完成」，自动创建分区（新手无需手动分区）

网络与主机名配置

点击「网络和主机名」，开启网卡（开关调至「开」），暂不配置IP（后续手动静态配置）
主机名修改：命名为bigdata-node01（与虚拟机名称一致，便于识别），点击「应用」

设置用户与密码

根密码（root）：设置强密码（牢记，后续远程连接、操作系统核心权限），新手可关闭「密码强度检查」
普通用户：可创建（如user/bigdata），设置密码，赋予管理员权限（可选）

完成安装并重启

点击「开始安装」，等待安装完成（约5-10分钟，根据电脑配置）
安装完成后点击「重启」，重启后输入root账号和密码登录系统，完成基础Linux系统安装

四、第三步：Linux系统静态IP配置（核心步骤）

大数据学习环境需固定IP，避免每次启动虚拟机IP变化，导致后续连接和集群搭建失败，桥接模式下配置静态IP

查看电脑本机网络信息（Windows为例）

打开CMD命令行，输入 ipconfig ，查看连接的网络适配器（如WLAN/以太网）
记录关键信息：本机IP、子网掩码、默认网关、DNS服务器（如网关192.168.1.1，DNS 223.5.5.5/114.114.114.114）

进入Linux系统编辑网络配置文件

登录Linux系统，输入命令 cd /etc/sysconfig/network-scripts/ ，进入网络配置目录
输入 ls ，查看网卡配置文件名（如ifcfg-ens33，不同虚拟机可能为ifcfg-eth0）
输入编辑命令 vi ifcfg-ens33 （用vi/vim编辑器，新手可先熟悉vim基本操作：i编辑，Esc退出编辑，:wq保存退出，:q!不保存退出）

修改网络配置文件参数（关键）

将原有参数修改/添加，BOOTPROTO改为static（静态IP），ONBOOT改为yes（开机自启网卡），添加IP、子网掩码、网关、DNS信息，示例配置：

plaintext

TYPE=Ethernet
PROXY_METHOD=none
BROWSER_ONLY=no
BOOTPROTO=static # 动态dhcp改为静态static
IPADDR=192.168.1.101 # 静态IP，与本机同网段，最后一位101-254之间（避免冲突）
NETMASK=255.255.255.0 # 子网掩码，与本机一致
GATEWAY=192.168.1.1 # 默认网关，与本机一致
DNS1=223.5.5.5 # 阿里云DNS，备用DNS2=114.114.114.114
ONBOOT=yes # 开机启用网卡
NAME=ens33
DEVICE=ens33
ONPARENT=yes

重启网络服务并验证IP

输入命令 systemctl restart network ，重启网络服务（使配置生效）
输入 ifconfig 或 ip addr ，查看网卡IP，确认是否为配置的静态IP（如192.168.1.101）
测试网络连通性：输入 ping 本机IP 、 ping 网关、 ping www.baidu.com ，均能ping通则网络配置成功（ping不通检查配置文件参数、虚拟机网络模式）

五、第四步：虚拟机克隆（搭建多节点集群基础）

大数据学习常需搭建集群（如Hadoop集群2/3节点），无需重复创建虚拟机，直接克隆已配置好的基础虚拟机，节省时间

准备工作

关闭待克隆的虚拟机（bigdata-node01），确保虚拟机处于「关机」状态，不可为挂起/运行状态
打开VMware，右键点击待克隆虚拟机，选择「管理」-「克隆」

克隆向导配置

克隆源：选择「虚拟机中的当前状态」（克隆已配置好IP、系统的状态）
克隆类型：选择「创建完整克隆」（独立虚拟机，可单独修改配置，适合集群搭建；链接克隆依赖源虚拟机，不推荐）
虚拟机名称与路径：命名为bigdata-node02/bigdata-node03，安装路径与源虚拟机同目录（非系统盘）
点击「完成」，等待克隆完成（约3-5分钟，根据虚拟机大小）

克隆后虚拟机关键配置（必做）

克隆后的虚拟机与源虚拟机IP、主机名一致，需修改避免冲突，以node02为例：

1. 启动克隆后的虚拟机bigdata-node02，登录root账号
2. 修改静态IP：重复「第三步」，将IP改为192.168.1.102（最后一位+1）
3. 修改主机名：输入命令 hostnamectl set-hostname bigdata-node02 ，永久修改主机名
4. 修改hosts文件（可选，集群搭建必备）：输入 vi /etc/hosts ，添加节点IP与主机名映射，示例：

plaintext

192.168.1.101 bigdata-node01
192.168.1.102 bigdata-node02
192.168.1.103 bigdata-node03

5. 重启虚拟机： reboot ，重启后验证IP和主机名是否修改成功

六、第五步：FinalShell远程连接虚拟机（核心操作）

Linux系统纯命令行操作更高效，FinalShell替代虚拟机自带界面，支持文件传输、多窗口操作，是大数据学习必备工具

FinalShell安装与启动

打开安装好的FinalShell，首次启动无需配置，直接进入主界面
点击左上角「文件夹+」，选择「SSH连接」，新建远程连接

配置SSH连接参数

连接名称：命名为bigdata-node01（与虚拟机一致，便于区分）
主机：输入虚拟机配置的静态IP（如192.168.1.101）
端口：默认22（SSH协议默认端口，无需修改，Linux系统已默认开启22端口）
用户名：root（或创建的普通用户）
密码：输入虚拟机root账号的密码
点击「确定」，保存连接配置

建立连接并验证

双击左侧新建的连接（bigdata-node01），首次连接会提示「主机密钥验证」，点击「接受」
成功连接后，进入Linux命令行界面，与虚拟机本地操作一致
测试文件传输：FinalShell左侧有「文件管理器」，可直接拖拽本地文件（如大数据安装包）到虚拟机，或从虚拟机下载文件到本地，无需额外配置FTP

多节点连接配置

重复上述步骤，为克隆后的node02、node03新建SSH连接，分别输入对应静态IP，FinalShell可同时打开多个连接窗口，方便集群节点间操作

七、环境搭建后基础检查与优化（必做）

1. 关闭Linux防火墙：大数据集群各节点需互通端口，关闭防火墙避免拦截，命令：

临时关闭： systemctl stop firewalld
永久关闭： systemctl disable firewalld
验证： systemctl status firewalld ，显示inactive则成功
2. 关闭SELINUX：避免权限限制，输入 vi /etc/selinux/config ，将SELINUX=enforcing改为SELINUX=disabled，重启虚拟机生效
3. 配置主机名与IP映射：所有节点修改hosts文件，添加集群所有节点的IP和主机名，实现节点间免密访问基础
4. 安装基础依赖：输入 yum install -y wget net-tools lrzsz gcc make ，安装wget（下载工具）、net-tools（ifconfig命令）、lrzsz（文件传输）、编译工具
5. 测试多节点连通性：在node01输入 ping bigdata-node02 ，能ping通则集群节点网络互通成功

八、常见问题与解决办法

1. 虚拟机启动后无网络：检查网络模式是否为桥接、网卡是否开启、IP配置是否与本机同网段
2. FinalShell连接失败：验证虚拟机IP是否正确、22端口是否开启、防火墙是否关闭、密码是否正确
3. 克隆后虚拟机IP冲突：务必修改克隆机的IP和主机名，避免与源虚拟机重复
4. ping百度不通：检查DNS配置是否正确、虚拟机网络是否与本机连通
5. vim编辑器操作失误：按Esc退出编辑模式，:q!强制退出不保存，重新编辑即可

九、后续大数据环境搭建铺垫

本基础环境为大数据框架（Hadoop、Spark、Flink、Hive等）搭建做准备，后续可基于该环境进行：

1. 集群节点间免密登录配置（SSH免密）
2. JDK安装与环境变量配置（大数据框架依赖Java）
3. Hadoop/Spark安装包下载、解压、配置与启动
4. 集群状态监控与基础命令操作