Spark核心

99 阅读1分钟

Spark core是建立在统一的抽象RDD之上的,这使得Spark的各个组件可以随意集成,可以在同一个应用程序中使用不同的组件以完成复杂的大数据处理任务。本文主要讨论的内容有:

  1. 什么是RDD
  2. RDD的设计初衷
  3. RDD的基本概念与主要特点
  4. 宽依赖与窄依赖
  5. stage划分与作业调度
  6. RDD操作算子
  7. Transformations
  8. Actions
  9. 共享变量
  10. 广播变量
  11. 累加器
  12. 持久化
  13. 综合案例