Spark on Yarn中的Executor内存设置本文已参与「新人创作礼」活动，一起开启掘金创作之路。背景介绍 Y

本文已参与「新人创作礼」活动，一起开启掘金创作之路。

背景介绍

Yarn

yarn是一个主从型的计算资源管理系统，包含一个ResourceManager和多个NodeManager。其中ResourceManager负责整个集群的资源调度，管理NodeManager；NodeManager负责管理单个节点。

Spark

Spark是一种分布式计算框架，可以在多种集群资源管理器上运行。Spark计算任务运行时，会首先运行一个driver，相当于计算任务的main函数。它负责计算任务的调度，driver会管理多个executor，executor上会运行具体的计算任务。

Spark on Yarn

Spark on yarn 模式有两种， yarn-client, yarn-cluster, 其中yarn-client适合测试环境， yarn-cluster适合生产环境。

Executor内存设置

Spark的executor运行在单独的JVM中。spark.executor.memory这个参量设置的就是JVM的堆内存，也是executor实际可以使用的内存。JVM本身也需要一定的内存，这部分内存的大小通过spark.executor.memoryOverhead设置。这两部分的和就是向Yarn申请的Container内存大小。

Yarn配置文件中会限制Container的最小内存（yarn.scheduler.minimum-allocation-mb）、最大内存（yarn.scheduler.maximum-allocation-mb）。

spark.executor.memory

该参数用于设置每个Executor进程的内存。Executor内存的大小，很多时候直接决定了Spark作业的性能，而且JVM OOM在Executor中更为常见。

spark.executor.memoryOverhead

设置申请Executor的堆外内存，主要用于JVM自身，字符串, NIO Buffer等开销，注意memoryOverhead 这部分内存并不是用来进行计算的，用户代码及spark都无法直接操作。如果不设置该值，那么默认为spark.executor.memory * 0.10，最小为384 MB。

Container的内存分配大致如下：

JVM堆外内存：spark.executor.memoryOverhead
JVM堆内存：spark.executor.memory
- 用于计算（如shuffle操作）和存储
  spark.memory.fraction * (JVM堆内存 - 300M)spark.memory.fraction默认值为0.6。这部分内存会有一个比例专门用于存储；这个比例通过spark.memory.storageFraction设置。其他的部分会在运行中动态的调整。
- 用于保存Spark元数据

计算公式：

storage memory = (spark.executor.memory - 300M) * spark.storage.memoryFraction * spark.storage.safetyFraction + spark.executor.memoryOverhead