如何在PyCharm上安装Spark?

471 阅读1分钟

PySpark 是一个为Apache Spark提供API的Python库。Spark框架是一个分布式引擎,用于在大规模数据上进行集合计算,促进分布式数据分析和机器学习。

问题的提出:给定一个PyCharm 项目。如何在虚拟环境中或全球范围内将PySpark库安装到你的项目中?

这里有一个始终有效的解决方案

  • 打开 **File > Settings > Project**从PyCharm菜单中的
  • 选择你当前的项目。
  • 点击 **Python Interpreter**在你的项目标签中点击
  • 点击小的 **+**符号来添加一个新的库到项目中。
  • 现在键入要安装的库,在你的例子中,"pyspark" ,不带引号,然后点击 **Install Package**.
  • 等待安装终止并关闭所有弹出窗口。

下面是一个简短的动画视频的安装过程--它对PySpark也有类似的作用,只要在搜索栏中输入*"pyspark "*即可。

确保只选择 "pyspark",因为有许多其他的软件包不需要,但也包含 "pyspark "这个词(假阳性)。

pyspark on PyCharm installation

或者,你也可以在PyCharm的 "终端 "视图中运行 **[pip install](https://blog.finxter.com/how-to-install-pip-on-windows/ "How To Install pip On Windows?") pyspark**命令,在PyCharm的 "终端"视图中。

$ pip install pyspark

pip install pyspark on PyCharm