这是我参与「第四届青训营 」笔记创作活动的的第8天
前言:上节记录了sql Optimizer中CBO中的执行计划和效果,并对CBO进行总结。本节将对大数据处理引擎 Spark进行介绍。对于sql Optimizer前言知识的总结日后将补上,现在准备进军Spark。好好加油吧!🤣
大数据处理技术栈
直接上图:
可见Spark、Flink处于计算圈内,接着看数据处理链路
常见的大数据处理链路
接下来看一下常见的大数据处理引擎:
什么是Spark?
这里贴出其官网和github地址:
github: github.com/apache/spar…
Spark版本演进
Spark生态&特点
Spark支持sql、java、R、Scala、Python等语言
丰富的数据源
丰富的API/算子
Spark运行架构&部署方式
Spark下载编译
还是直接上图吧。。
Spark包概览
Spark提交命令
环境变量:
Spark-shell
Spark-sql
pyspark
提交一个简单任务
Spark UI
Spark 性能benchmark
总结:本节对saprk进行了介绍,感觉没什么还说的,直接贴了PPT的图,等待后续完善吧。。