数据算法结构|青训营笔记

55 阅读1分钟

这是我参与「第四届青训营」笔记创作的第5天
Spark原理与实践

  1. 大数据处理引擎Spark介绍
  • 大数据处理技术栈截屏2022-07-30 10.50.18.png
  • 常见大数据处理链路截屏2022-07-30 12.48.06.png
  • 开源大数据处理引擎:Spark,Flink……
  • Spark的生态&特点截屏2022-07-30 12.56.17.png
  • Spark运行架构&部署方式:Spark local mode,Spark Standalone mode, on YARN/K8S截屏2022-07-30 13.01.08.png 2.SparkCore原理解析 截屏2022-07-30 13.25.10.png
  • RDD:内置RDD,自定义RDD
  • transform算子,action算子
  • RDD依赖:窄依赖,宽依赖截屏2022-07-30 20.21.06.png
  • scheduler截屏2022-07-30 20.21.50.png
  • memory management:
  • executor内存主要有两类:storage和execution
  • management
  • shuffle
  1. SparkSQL原理解析截屏2022-07-30 20.56.33.png
  • Catalyst优化器-RBO
  • AQE
  • runtime filter
  • bloom runtime filter
  • Codegen
  1. 实践问题
  • shuffle稳定性问题
  • shuffle稳定性解决方案
  • SQL执行性能问题
  • 参数推荐/作业诊断