Spark原理与实践|青训营笔记

47 阅读1分钟

这是我参与「第四届青训营 」笔记创作活动的第5天,在第五节课中主要了解到了大数据处理引擎Spark有关的知识。

大数据处理引擎Spark介绍

大数据处理技术栈

image.png

常见大数据处理链路

image.png Spark生态特点:

  • 统一引擎,支持多种分布式场景
  • 多语言支持
  • 可读写丰富数据源
  • 丰富灵活的API算子
  • 支持K8S/YARN/Mesos资源调度

SparkCore原理解析

  • SparkCore
  • RDD
  • Scheduler
  • Memory Management
  • Shuffle

SparkSQL原理解析

  • SparkSQL
  • Catalyst优化器
  • AQE
  • Runtime Filter
  • Bloom Runtime Filter
  • Codegen

业界挑战与实践

  • Shuffle稳定性问题
  • SQL执行性能问题