[spark]worker节点清理不干净的原因及解决办法当你执行 stop-all.sh 后，Worker节点仍然显示

当你执行 stop-all.sh 后，Worker节点仍然显示 alive 状态，这通常由以下几个原因引起：

常见原因及解决方案：

# 在Worker节点上检查是否有残留进程
ps aux | grep -i spark | grep -v grep

# 强制终止所有Spark相关进程
pkill -f spark

# 查看Master Web UI（默认8080端口）
# 或者通过spark-shell检查

如果Worker正在运行任务，它会延迟停止：

# 查看是否有正在运行的任务
${SPARK_HOME}/bin/spark-submit --master spark://<master>:7077 --class ...
# 或通过Web UI查看任务状态

方法一：逐一停止Worker

# 在每个Worker节点上执行
${SPARK_HOME}/sbin/stop-worker.sh

# 或使用脚本停止特定Worker
${SPARK_HOME}/sbin/stop-worker.sh spark://<master>:7077

方法二：使用jps和kill

# 查看Java进程
jps

# 找到Worker进程ID
# 正常停止
kill <worker_pid>

# 强制停止（如果正常停止无效）
kill -9 <worker_pid>

方法三：批量清理脚本

#!/bin/bash
# cleanup_spark.sh

# 停止所有Spark相关进程
pkill -f "spark.*Worker"
pkill -f "spark.*Master"

# 清理临时文件（可选）
rm -rf /tmp/spark-*

# 检查Worker配置文件
cat ${SPARK_HOME}/conf/spark-env.sh

# 确保SPARK_WORKER_PID和SPARK_WORKER_DIR配置正确
export SPARK_WORKER_PID=/tmp/spark-worker.pid

# 检查端口是否释放
netstat -tlnp | grep 8080  # Worker Web UI
netstat -tlnp | grep 7077  # Master端口

${SPARK_HOME}/bin/spark-class org.apache.spark.deploy.Client kill

# 使用start/stop脚本时指定具体节点
${SPARK_HOME}/sbin/stop-slave.sh  # 停止Worker
${SPARK_HOME}/sbin/stop-master.sh  # 停止Master

spark.worker.timeout 60
spark.master.retainedApplications 50

如果问题仍然存在，请检查：