这是我参与「第四届青训营」笔记创作活动的第2天

1. Spark概述

1.1 Spark定义

Spark是一种基于内存的快速、通用、可扩展的大数据分析计算引擎；
相较于 MapReduce 的批处理计算，Spark 可以带来上百倍的性能提升，因此它成为继 MapReduce 之后，最为广泛使用的分布式计算框架。

2011年发布1.x版本
Hadoop1.x问题
1）NameNode不能高可用；
2）MR框架将资源调度和任务调度耦合在一起；
3）MR框架基于磁盘计算，性能较低
2013年发布2.x版本（增加YARN） Hadoop2.x解决了Hadoop1.x的问题
1）NameNode高可用；
2）MR框架将资源调度和任务调度解耦；
3）计算框架可插拔

2009年诞生于加州大学伯克利分校AMPLab，项目采用Scala编写；
2010年开源；
2013年6月成为Apache孵化项目（基于Hadoop问题，将资源和任务调度分开）；
2014年2月成为Apache顶级项目

Hadoop的Yarn框架比Spark框架诞生的晚，所以Spark自己设计了一套资源调度框架；相较于Yarn，Spark的调度框架没有使用Container，效率更高，但没有Yarn的兼容性高

Spark支持迭代式计算，相较于MR，Spark框架计算的原因是：在内存中计算，中间结果不落盘

Spark Core：实现了Spark的基本功能，包含任务调度、内存管理、错误恢复、与存储系统交互等模块。Spark Core中还包含了对弹性分布式数据集RDD(Resilient Distributed DataSet的API定义。
Spark SQL：是Spark用来操作结构化数据的程序包。通过Spark SQL，我们可以使用 SQL或者Apache Hive版本的HQL来查询数据。Spark SQL支持多种数据源，比如Hive表、Parquet以及JSON等。
Spark Streaming：是Spark提供的对实时数据进行流式计算的组件。提供了用来操作数据流的API，并且与Spark Core中的 RDD API高度对应。
Spark MLlib：提供常见的机器学习功能的程序库。包括分类、回归、聚类、协同过滤等，还提供了模型评估、数据导入等额外的支持功能。
Spark GraphX：主要用于图形并行计算和图挖掘系统的组件。
集群管理器：Spark设计为可以高效地在一个计算节点到数千个计算节点之间伸缩计算。为了实现这样的要求，同时获得最大灵活性，Spark支持在各种集群管理器（Cluster Manager）上运行，包括Hadoop YARN、Apache Mesos，以及Spark自带的一个简易调度器（独立调度器）。

1）快：与Hadoop的MapReduce相比，Spark基于内存的运算要快100倍以上，基于硬盘的运算也要快10倍以上。Spark实现了高效的DAG执行引擎，可以通过基于内存来高效处理数据流。计算的中间结果是存在内存中的。

2）易用：Spark支持Java、Python和Scala的API，还支持超过80种高级算法，使用户可以快速构建不同的应用。

3) 通用：Spark提供了统一的解决方案。Spark可以用于，交互式查询（Spark SQl）、实时流处理（Spark Streaming）、机器学习（Spark MLlib）和图计算（GraphX），这些不同类型的处理都可以在同一个应用中无缝使用。

4）兼容性：Spark可以非常方便地与其他的开源产品进行融合。比如，Spark可以使用Hadoop的YARN和Apache Mesos作为它的资源管理和调度器，并且可以处理所有Hadoop支持的数据，包括HDFS、HBase等。

部署Spark集群大体上分为两种模式：单机模式与集群模式

大多数分布式框架都支持单机模式，方便开发者调试框架的运行环境，但是在生产环境中，并不会使用单机模式。

Spark目前支持的部署模式：

（1）Local 模式： 在本地部署单个Spark服务

（2）Standalone 模式：Spark自带的任务调度模式。（国内常用）

（3）YARN 模式：Spark使用Hadoop的YARN组件进行资源与任务调度。（国内最常用）

（4）Mesos 模式：Spark使用Mesos平台进行资源与任务的调度。（国内很少用）