我报名参加金石计划1期挑战——瓜分10万奖池,这是我的第6篇文章,点击查看活动详情
一、安装步骤概览
前提:Windows已有spark环境,详情参考:Windows安装Spark环境
1.安装Anaconda
2.用Anaconda安装Jupyter notebook
3.用Anaconda安装PySpark
4.运行Jupyter notebook
5.运行测试代码
二、安装Anaconda
- 下载安装包
- 安装
安装较为简单,基本都是下一步,为了避免不必要的麻烦,最后默认安装路径
- 配置环境变量
C:\Users\yangyh\anaconda3
C:\Users\yangyh\anaconda3\Library\mingw-w64\bin
C:\Users\yangyh\anaconda3\Library\usr\bin
C:\Users\yangyh\anaconda3\Library\bin
C:\Users\yangyh\anaconda3\Scripts
- 测试
conda --version
5.设置清华镜像
python -m pip install --upgrade pip
pip config set global.index-url https://pypi.tuna.tsinghua.edu.cn/simple
二、用Anaconda安装Jupyter notebook
pip install --upgrade pip
pip install jupyther
三、安装pyspark依赖包
pip install pyspark==3.0.0
四、运行Jupyter notebook
1.新建本地文件夹
D:\02-devTool\Bigdata\JupyterWorkspace
2.启动
jupyter notebook --ip=127.0.0.1 --notebook-dir='D:\02-devTool\Bigdata\JupyterWorkspace'
3.浏览器访问Jupyter Notebook页面
127.0.0.1:8888/tree
五、运行测试代码
from pyspark.sql import SparkSession
from pyspark.sql.functions import col
spark = SparkSession.builder.appName("WordCount").getOrCreate()
spark.range(0, 5).select(col("id").cast("double")).agg({'id':'sum'}).show()
spark.stop()
运行结果: