Spark+ClickHouse实战企业级数据仓库，进军大厂必备(21章完整版)

download：www.666xit.com/3618/

Spark简介：
Spark是一种通用的大数据核算框架,是根据RDD(弹性分布式数据集)的一种核算模型。那到底是什么呢？或许很多人还不是太理解，通俗讲便是可以分布式处理很多集数据的，将很多集数据先拆分，别离进行核算，然后再将核算后的成果进行合并。

为什么运用Spark
Spark，拥有Hadoop MapReduce所具有的优点；但不同于MapReduce的是——Job中心输出成果可以保存在内存中，然后不再需求读写HDFS，并且比MapReduce均匀快10倍以上的核算速度；因此Spark能更好地适用于数据挖掘与机器学习等需求迭代的MapReduce的算法。

Spark 是一种与 Hadoop 相似的开源集群核算环境，可是两者之间还存在一些不同之处，这些有用的不同之处使 Spark 在某些工作负载方面体现得愈加优胜，换句话说，Spark 启用了内存分布数据集，除了可以提供交互式查询外，它还可以优化迭代工作负载。

Spark 是在 Scala 言语中完成的，它将 Scala 用作其应用程序框架。与 Hadoop 不同，Spark 和 Scala 可以严密集成，其中的 Scala 可以像操作本地调集目标相同轻松地操作分布式数据集。

Spark优势
速度快
■根据内存数据处理，比MR快100个数量级以上(逻辑回归算法测试)
■根据硬盘数据处理，比MR快10个数量级以上
易用性
■支持Java、 Scala、 Python、 R言语
■交互式shell便利开发测试
通用性
■一栈式解决方案:批处理、交互式查询、实时流处理、图核算及机器学习
■多种运转形式
■YARN、 Mesos、 EC2、 Kubernetes、 Standalone(独立形式)、 Local(本地形式)

Apache Spark是一个开源的、强壮的分布式查询和处理引擎，它供给MapReduce的灵活性和可扩展性，但速度明显要快上许多；拿数据存储在内存中的时候来说，它比Apache Hadoop 快100倍，拜访磁盘时也要快上10倍。

一、Spark基础

1.1 Spark是什么

Spark 是一种由 Scala 言语开发的快速、通用、可扩展的大数据分析引擎。

在这儿刺进图片描绘

Spark Core：Spark Core包括Spark的基本功能，如内存核算、使命调度、布置形式、毛病康复、存储办理等。Spark建立在共同的抽象RDD之上，使其能够以基本共同的方法应对不同的大数据处理场景；一般所说的Apache Spark，便是指Spark Core；

Spark SQL：兼容HIVE数据，供给比Hive更快的查询速度（10~100x）的分布式SQL引擎，开发者能够轻松地运用SQL命令进行查询，并进行更复杂的数据分析；

Spark Streaming：流式核算分解成一系列小的批处理作业利用spark轻量级低时延的结构来支撑流数据处理，现在已经支撑Kafka，Flume等；

MLilb：供给根据Spark的机器学习算法库，包括聚类、分类、回归、协同过滤等，降低了机器学习的门槛，开发人员只要具有必定的理论知识就能进行机器学习的作业；
GraphX：供给图形核算结构，与Pregel/GraphLab兼容。

1.2 Spark VS Hadoop

尽管 Spark 相对于 Hadoop 而言具有较大优势，但 Spark 并不能彻底替代 Hadoop，Spark 首要用于替代Hadoop中的 MapReduce 核算模型。存储仍然能够运用 HDFS，可是中心成果能够寄存在内存中；调度能够运用 Spark 内置的，也能够运用更老练的调度系统 YARN 等。

	Hadop	Spark
类型	分布式基础渠道, 包括核算, 存储, 调度	分布式核算东西
场景	大规模数据集上的批处理	迭代核算, 交互式核算, 流核算
价格	对机器要求低, 廉价	对内存有要求, 相对较贵
编程范式	Map+Reduce, API 较为底层, 算法适应性差	RDD 组成 DAG 有向无环图, API 较为顶层, 便利运用
数据存储结构	MapReduce 中心核算成果存在 HDFS 磁盘上, 推迟大	RDD 中心运算成果存在内存中 , 推迟小
运转方法	Task 以进程方法保护, 使命启动慢	Task 以线程方法保护, 使命启动快

Spark 和 Hadoop 的根本差异是多个作业之间的数据通信问题；Spark 多个作业之间数据通信是根据内存，而 Hadoop 是根据磁盘。
实践上，Spark 已经很好地融入了 Hadoop 生态圈，并成为其中的重要一员，它能够借助于 YARN 完成资源调度办理，借助于 HDFS 完成分布式存储。

此外，Hadoop 能够运用廉价的、异构的机器来做分布式存储与核算，可是，Spark 对硬件的要求稍高一些，对内存与 CPU 有必定的要求。

1.3 Spark优势及特色

1.3.1 优秀的数据模型和丰厚核算抽象

首要看看MapReduce，它供给了对数据拜访和核算的抽象，可是对于数据的复用便是简单的将中心数据写到一个安稳的文件系统中(例如 HDFS)，所以会产生数据的仿制备份，磁盘的I/O以及数据的序列化，所以在遇到需要在多个核算之间复用中心成果的操作时功率就会十分的低。而这类操作是十分常见的，例如迭代式核算，交互式数据挖掘，图核算等。

因而 AMPLab 提出了一个新的模型，叫做 RDD。

RDD 是一个能够容错且并行的数据结构（其实能够理解成分布式的调集，操作起来和操作本地调集相同简单)，它能够让用户显式的将中心成果数据集保存在内存中，而且经过操控数据集的分区来达到数据寄存处理最优化。同时 RDD 也供给了丰厚的 API (map、reduce、filter、foreach、redeceByKey...)来操作数据集。

后来 RDD 被 AMPLab 在一个叫做 Spark 的结构中供给并开源。

1.3.3 spark的特色

快：与 Hadoop 的 MapReduce 比较，Spark 根据内存的运算要快 100 倍以上，根据硬盘的运算也要快 10 倍以上。Spark 完成了高效的 DAG 履行引擎，能够经过根据内存来高效处理数据流。

易用：Spark 支撑 Java、Python、R 和 Scala 的 API，还支撑超过 80 种高档算法，运用户能够快速构建不同的运用。而且 Spark 支撑交互式的 Python 和 Scala 的 shell，能够十分便利地在这些 shell 中运用 Spark 集群来验证解决问题的方法。

通用：Spark 供给了共同的解决方案。Spark 能够用于批处理、交互式查询(Spark SQL)、实时流处理(Spark Streaming)、机器学习(Spark MLlib)和图核算(GraphX)，这些不同类型的处理都能够在同一个运用中无缝运用。

兼容性：Spark 能够十分便利地与其他的开源产品进行交融。比方，Spark 能够运用 Hadoop 的 YARN 和 Apache Mesos 作为它的资源办理和调度器，而且能够处理所有 Hadoop 支撑的数据，包括 HDFS、HBase 和 Cassandra 等。这对于已经布置 Hadoop 集群的用户特别重要，因为不需要做任何数据搬迁就能够运用 Spark 的强壮处理能力。

1.4 Spark 运转环境

① local 本地形式(单机) - 不需要其他任何节点资源就能够在本地履行Spark代码的环境

学习测验运用。
分为 local 单线程和 local-cluster 多线程。

② standalone 独立集群形式

学习测验运用。
典型的 Mater/slave 形式。

③ standalone-HA 高可用形式

出产环境运用
根据 standalone 形式，运用 zk 搭建高可用，防止 Master 是有单点毛病的。

④ on yarn 集群形式

出产环境运用
运转在 yarn 集群之上，由 yarn 担任资源办理，Spark 担任使命调度和核算。
好处：核算资源按需弹性，集群利用率高，同享底层存储，防止数据跨集群搬迁。

⑤ on mesos 集群形式

国内运用较少
运转在 mesos 资源办理器结构之上，由 mesos 担任资源办理，Spark 担任使命调度和核算。

⑥ on cloud 集群形式

中小公司未来会更多的运用云服务
比方 AWS 的 EC2，运用这个形式能很便利的拜访 Amazon 的 S3。

1.5 Spark运转架构

Spark 结构的中心是一个核算引擎，整体来说，它采用了规范 master-slave 的结构。
如下图所示，它展现了一个 Spark 履行时的基本结构。图形中的 Driver 表明 master，担任办理整个集群中的作业使命调度。图形中的 Executor 则是 slave，担任实践履行使命。
在这儿刺进图片描绘

1.5.1 Driver

Spark驱动器节点，用于履行Spark使命中的main方法，担任实践代码的履行作业。Driver在Spark作业履行时首要担任：

将用户程序转化为作业（job）
在Executor之间调度使命(task)
盯梢Executor的履行情况
经过UI展现查询运转情况

1.5.2 Executor

Spark Executor是集群中作业节点（Worker）中的一个JVM进程，担任在Spark 作业中运转具体使命（Task），使命彼此之间相互独时启动，而且一直伴随着整个Spark 运用的生命周期而存在。如果有Executor节点发生了毛病或溃散，Spark 运用也能够持续履行，会将犯错节点上的使命调度到其他Executor节点上持续运转。
Executor有两个中心功能：

担任运转组成Spark运用的使命，并将成果回来给驱动器进程
它们经过自身的块办理器（Block Manager）为用户程序中要求缓存的RDD 供给内存式存储。RDD 是直接缓存在Executor进程内的，因而使命能够在运转时充分利用缓存数据加快运算。

1.5.3 Master & Worker

Spark集群的独立布置环境中，不需要依靠其他的资源调度结构，自身就完成了资源调度的功能，所以环境中还有其他两个中心组件：Master和Worker，这儿的Master是一个进程，首要担任资源的调度和分配，并进行集群的监控等职责，类似于Yarn环境中的RM, 而Worker呢，也是进程，一个Worker运转在集群中的一台服务器上，由Master分配资源对数据进行并行的处理和核算，类似于Yarn环境中NM。

1.5.4 ApplicationMaster

Hadoop用户向YARN集群提交运用程序时,提交程序中应该包括ApplicationMaster，用于向资源调度器申请履行使命的资源容器Container，运转用户自己的程序使命job，监控整个使命的履行，盯梢整个使命的状况，处理使命失利等异常情况。
说的简单点便是，ResourceManager（资源）和Driver（核算）之间的解耦合靠的便是ApplicationMaster。

1.6 中心概念

1.6.1 Executor与Core

Spark Executor是集群中运转在作业节点（Worker）中的一个JVM进程，是整个集群中的专门用于核算的节点。在提交运用中，能够供给参数指定核算节点的个数，以及对应的资源。这儿的资源一般指的是作业节点Executor的内存大小和运用的虚拟CPU核（Core）数量。