简介： 本文主要讲解MaxCompute Spark资源调优，目的在于在保证Spark任务正常运行的前提下，指导用户更好地对Spark作业资源使用进行优化，极大化利用资源，降低成本。

本文作者：吴数傑阿里云智能开发工程师

1. 概述

本文主要讲解MaxCompute Spark资源调优，目的在于在保证Spark任务正常运行的前提下，指导用户更好地对Spark作业资源使用进行优化，极大化利用资源，降低成本。

2. Sensor

Sensor提供了一种可视化的方式监控运行中的Spark进程，每个worker（Executor）及master（Driver）都具有各自的状态监控图，可以通过Logview中找到入口，如下图所示：

打开Sensor之后，可以看到下图提供了Driver/Executor在其生命周期内的CPU和内存的使用情况：
cpu_plan/mem_plan（蓝线）代表了用户申请的CPU和内存计划量
用户可以直观地从cpu_usage图中看出任务运行中的CPU利用率
mem_usage代表了任务运行中的内存使用，是mem_rss和page cache两项之和，详见下文

Memory Metrics
mem_rss 代表了进程所占用了常驻内存，这部分内存也就是Spark任务运行所使用的实际内存，通常需要用户关注，如果该内存超过用户申请的内存量，就可能会发生OOM，导致Driver/Executor进程终止。此外，该曲线也可以用于指导用户进行内存优化，如果实际使用量远远小于用户申请量，则可以减少内存申请，极大化利用资源，降低成本。
mem_cache（page_cache）用于将磁盘中的数据缓存到内存中，从而减少磁盘I/O操作，通常由系统进行管理，如果物理机内存充足，那么mem_cache可能会使用很多，用户可以不必关心该内存的分配和回收。

3. 资源参数调优

（1）Executor Cores

4. 总结

上文主要介绍了MaxCompute Spark在使用过程中可能遇到的资源不足的问题及相应的解决思路，为了能够最大化利用资源，首先建议按照1: 4的比例来申请单个worker资源，即1 core: 4 gb memory，如果出现OOM，那么需要查看日志及Sensor对问题进行初步定位，再进行相应的优化和资源调整。不建议单个Executor Cores 设置过多，通常单个Executor在2-8 core是相对安全的，如果超过8，那么建议增加instance数量。适当增加堆外内存（为系统预留一些内存资源）也是一个常用的调优方法，通常在实践中可以解决很多OOM的问题。最后，用户可以参考官方文档spark.apache.org/docs/2.4.5/…

原文链接

本文为阿里云原创内容，未经允许不得转载。

MaxCompute Spark 资源使用优化祥解

1. 概述

2. Sensor

3. 资源参数调优

4. 总结