Spark3设置HDFS jar包位置

389 阅读1分钟

问题描述

使用spark提交任务到YARN时,在没有配置spark.yarn.archive或者spark.yarn.jars时, 看到输出的日志在输出:

备注:spark 3.1.1, HDP环境


Neither spark.yarn.jars nor spark.yarn.archive is set,falling back to uploading lib

使用spark-shell 或 spark-sql时(On Yarn)也有同样问题,导致启动很慢,物理机环境启动实测花费了28秒。解决办法如下:

上传jars


hdfs dfs -mkdir /user/spark/spark3jars

hdfs dfs -put /usr/hdp/3.1.0.1-187/spark3/jars /user/spark/spark3jars/

设置Spark

编辑spark-defaults.conf

增加spark.yarn.jars hdfs:///user/spark/spark3jars/*

再次启动spark-shell已经没有那句提示,打开时间为20秒,快了8秒。

如果是spark集群,需从页面自定义spark-defaults.conf内容后重启Spark。