大数据学习记录 | 青训营笔记

112 阅读1分钟

这是我参与「第四届青训营 」笔记创作活动的的第8天

前言:上节记录了sql Optimizer中CBO中的执行计划和效果,并对CBO进行总结。本节将对大数据处理引擎 Spark进行介绍。对于sql Optimizer前言知识的总结日后将补上,现在准备进军Spark。好好加油吧!🤣

大数据处理技术栈

直接上图:

image.png

可见Spark、Flink处于计算圈内,接着看数据处理链路

常见的大数据处理链路

image.png 接下来看一下常见的大数据处理引擎:

image.png

什么是Spark?

image.png 这里贴出其官网和github地址:

官网: spark.apache.orgl

github: github.com/apache/spar…

Spark版本演进

image.png

Spark生态&特点

image.png

Spark支持sql、java、R、Scala、Python等语言

image.png

丰富的数据源

image.png

丰富的API/算子

image.png

Spark运行架构&部署方式

image.png

Spark下载编译

还是直接上图吧。。

image.png

Spark包概览

image.png

image.png

Spark提交命令

环境变量:

image.png

Spark-shell

image.png

Spark-sql

image.png

pyspark

image.png

提交一个简单任务

image.png

Spark UI

image.png

Spark 性能benchmark

image.png

总结:本节对saprk进行了介绍,感觉没什么还说的,直接贴了PPT的图,等待后续完善吧。。