大数据 RDD编程实验

1,648 阅读1分钟

1. 启动Spark

进入目录/usr/local/spark/sbin下,利用如下命令启动Spark服务

./start-all.sh

image.png

进入目录/usr/local/spark/bin下,启动spark-shell

./spark-shell

image.png

2. 计算Tom同学的总成绩平均分

2.1 读取数据文件

这里我把chapter5-data.txt这个文件放在了/home/hadoop目录下

image.png

2.2 解析数据

image.png

2.3 过滤出Tom的成绩数据

image.png

2.4 计算Tom的成绩总和、成绩平均值

  1. 取出tom的每科成绩转换为数组

image.png

  1. 计算总和及科目总数

image.png

image.png

  1. 计算平均值

image.png

3. 计算每名同学的选修课程数

3.1 解析数据

image.png

3.2 提取每名同学和他们选修的课程

image.png

3.3 计算每名同学的选修课程门数

image.png

3.4 打印结果

image.png