pyspark上传python环境

491 阅读1分钟
  1. 需要先安装conda,在conda安装好需要的包
  2. 打包运行环境
# 进入目录 
cd ~/miniconda3

# 将整个目录打包为gz格式
tar -zcvf python3.tar.gz *
  1. 上传环境至HDFS
hadoop fs -put python3.tar.gz tools
  1. 在shell脚本中添加python环境
export PYSPARK_PYTHON=py/bin/python3 
export PYSPARK_DRIVER_PYTHON=/home/<username>/miniconda3/bin/python3 # python的本机路径 
spark-submit \ 
--master yarn \ 
--archives "hdfs://<namespace>/user/<username>/tools/python3.tar.gz#py" \ # python3在hdfs的路径 
test.py

# namespace 查看方法
hdfs getconf -confKey dfs.nameservices
  1. 安装了新的包以后需要重复上述操作