- 需要先安装conda,在conda安装好需要的包
- 打包运行环境
# 进入目录
cd ~/miniconda3
# 将整个目录打包为gz格式
tar -zcvf python3.tar.gz *
- 上传环境至HDFS
hadoop fs -put python3.tar.gz tools
- 在shell脚本中添加python环境
export PYSPARK_PYTHON=py/bin/python3
export PYSPARK_DRIVER_PYTHON=/home/<username>/miniconda3/bin/python3 # python的本机路径
spark-submit \
--master yarn \
--archives "hdfs://<namespace>/user/<username>/tools/python3.tar.gz#py" \ # python3在hdfs的路径
test.py
# namespace 查看方法
hdfs getconf -confKey dfs.nameservices
- 安装了新的包以后需要重复上述操作