大数据学习记录｜青训营笔记

一天上班8小时

2022-07-30 112 阅读1分钟

这是我参与「第四届青训营」笔记创作活动的的第8天

前言：上节记录了sql Optimizer中CBO中的执行计划和效果，并对CBO进行总结。本节将对大数据处理引擎 Spark进行介绍。对于sql Optimizer前言知识的总结日后将补上，现在准备进军Spark。好好加油吧！🤣

大数据处理技术栈

直接上图：

可见Spark、Flink处于计算圈内，接着看数据处理链路

常见的大数据处理链路

接下来看一下常见的大数据处理引擎：

什么是Spark?

这里贴出其官网和github地址:

官网: spark.apache.orgl

github: github.com/apache/spar…

Spark版本演进

Spark生态&特点

Spark支持sql、java、R、Scala、Python等语言

丰富的数据源

丰富的API/算子

Spark运行架构&部署方式

Spark下载编译

还是直接上图吧。。

Spark包概览

Spark提交命令

环境变量：

Spark-shell

Spark-sql

pyspark

提交一个简单任务

Spark UI

Spark 性能benchmark

总结：本节对saprk进行了介绍，感觉没什么还说的，直接贴了PPT的图，等待后续完善吧。。