Windows安装PySpark环境

1,006 阅读1分钟

我报名参加金石计划1期挑战——瓜分10万奖池,这是我的第6篇文章,点击查看活动详情

一、安装步骤概览

前提:Windows已有spark环境,详情参考:Windows安装Spark环境

1.安装Anaconda

2.用Anaconda安装Jupyter notebook

3.用Anaconda安装PySpark

4.运行Jupyter notebook

5.运行测试代码

二、安装Anaconda

  1. 下载安装包

Anaconda

  1. 安装

安装较为简单,基本都是下一步,为了避免不必要的麻烦,最后默认安装路径

  1. 配置环境变量
C:\Users\yangyh\anaconda3
C:\Users\yangyh\anaconda3\Library\mingw-w64\bin
C:\Users\yangyh\anaconda3\Library\usr\bin
C:\Users\yangyh\anaconda3\Library\bin
C:\Users\yangyh\anaconda3\Scripts
  1. 测试
conda --version

5.设置清华镜像

python -m pip install --upgrade pip
pip config set global.index-url https://pypi.tuna.tsinghua.edu.cn/simple

二、用Anaconda安装Jupyter notebook

pip install --upgrade pip
pip install jupyther

三、安装pyspark依赖包

pip install pyspark==3.0.0

四、运行Jupyter notebook

1.新建本地文件夹

D:\02-devTool\Bigdata\JupyterWorkspace

2.启动

jupyter notebook --ip=127.0.0.1 --notebook-dir='D:\02-devTool\Bigdata\JupyterWorkspace'

3.浏览器访问Jupyter Notebook页面

127.0.0.1:8888/tree

五、运行测试代码

from pyspark.sql import SparkSession
from pyspark.sql.functions import col

spark = SparkSession.builder.appName("WordCount").getOrCreate()
spark.range(0, 5).select(col("id").cast("double")).agg({'id':'sum'}).show()
spark.stop()

运行结果: