1.我使用pycharm运行pyspark库遇到的一个bug,感觉很有意思。我创建了一个使用3.12.2版本的环境,里面安装了pyspark库,同时安装了jdk并配置好了环境变量,运行了如下代码,正常输出结果没有报错:
2.然后我使用pyspark里面的map()算子,发现报错了Caused by: org.apache.spark.SparkException: Python worker failed to connect back.首先可以肯定的是我指定了pyspark的python解释器:
3.经过网友指点,说是python版本太高,于是我又下载了一个3.9.12的版本,并且在pycharm中创建了一个新项目,配置3.9.12这个版本,并在cmd中使用pip install pyspark target=D:\DevelopFrom2024\Python39\Lib\site-packages(我不用这个路径下载不了,会显示已经有pyspark了),然后我检查pycharm这个项目有没有相应的包,发现有:
4.但是运行还是和上面的报错情况一样,也就是兜兜转转啥结果都没有改变,于是我使用pip uninstall pyspark卸载了这个包,但是卸载的是3.12.2那个文件夹里的包,3.9.12文件夹的pyspark无法卸载,如图:
5.但是我再看pycharm里面的库,还是有pyspark,同样能import,运行后报错与上面还是一样,结果还是并未改变,难道这个包是假的吗?