Spark原理与实践 | 青训营笔记这是我参与青训营笔记活动的第五天大数据处理引擎Spark介绍大数据处理技术栈常

这是我参与青训营笔记活动的第五天

批式：map reduce Hadoop,Spark

流式：Flink

OLAP：presto，ClinkHourse，Impala，Doris

)

多语言支持：支持SQL，Java，Python，scala，R

丰富的数据源

丰富的API/算子

在application的main函数中创建SparkContext，负责和ClusterManager（集群管理器）通信，进行资源的申请，任务的分配和监控等。
ClusterManager将任务分配给多个Work Note（工作节点）
Executer(执行人)作为一个进程运行的Worker节点上，该进程负责运行Task，并且负责将数据存在内存或磁盘上

Spark Local Modal：本地测试/单进程多线程模式
- 进程：运行中的应用程序称为进程，拥有系统资源（CPU，内存）
- 线程：进程中的一段代码，一个进程中可以有多个代码
Spark Standalone Modal（Spark独立模态）：需要启动Spark的Standalone的Master/Worker
on YARN/K8S：依赖外部的资源调度器（YARN/K8S）

SparkCore是Spark的核心，主要负责任务调度等管理功能，其实现依赖于RDD（Resilient Distribute Databases 弹性分布式数据库）的程序抽象概念。

描述RDD的五要素

创建RDD

两类RDD算子

RDD依赖：描述父子RDD之间的依赖关系

RDD执行流程

SQL解析器会把字符串解析为一个语法树，即变为Unresolved Logical Plan（未解析的逻辑计划）
Analysis：遍历整个语法树，对每个节点进行数据类型的绑定，函数的绑定，根据catalog的元数据信息对数据表中的数据字段进行解析。最后变为（Logical plan 解析后的计划）
Logical Optimization：是catalyst的核心，分为RBO和CBO两种策略。通过这一步后转换为Optimized Logical Plan（优化后的逻辑计划）
Phyplanning：逻辑计划是不能被spark执行的，通过这一模块转换为Physical Plans（物理执行计划）
cost Model：根据过去性能统计，选择最佳物理计划（cbo）
code generation：代码生成，转换为Java实现

Runtime Filter
- 全局优化：从提升全局资源利用率，消除数据倾斜，降低IO等角度优化
- 局部优化：提升某个task的执行效率，主要从提高CPU和内存利用率的角度进行优化