1. 什么是平均负载

首先，我们先理解下什么是平均负载。

平均负载是指单位时间内，系统处于可运行状态和不可中断状态的平均进程数，也就是平均活跃进程数，它和 CPU 使用率并没有直接关系。（为什么和 CPU 使用率没直接关系，这个我后面说明）

那么问题来了，可运行状态和不可中断状态又是什么东西呢？

所谓可运行状态的进程，是指正在使用 CPU 或者正在等待 CPU 的进程，也就是我们常用 ps 命令看到的，处于 R 状态（Running 或 Runnable）的进程。

而不可中断状态的进程，则是正处于内核态关键流程中的进程，并且这些流程是不可打断的，比如最常见的是等待硬件设备的 I/O 响应，也就是我们在 ps 命令中看到的 D 状态（Uninterruptible Sleep，也称为 Disk Sleep）的进程。

比如，当一个进程向磁盘读写数据时，为了保证数据的一致性，在得到磁盘回复前，它是不能被其他进程或者中断打断的，这个时候的进程就处于不可中断状态。如果此时的进程被打断了，就容易出现磁盘数据与进程数据不一致的问题。

所以，不可中断状态实际上是系统对进程和硬件设备的一种保护机制。

明白了什么是平均负载后，那么自然就是要知道怎么用了。

2. 如何查看平均负载

当我们使用 uptime 命令时，会出现以下结果（这是我本机的结果，每个人的机器情况不一样）

$ uptime
02:34:03 up 2 days, 20:14,  1 user,  load average: 0.63, 0.83, 0.88

对应解释：

02:34:03              // 当前时间
up 2 days, 20:14      // 系统运行时间
1 user                // 正在登录用户数

最后三个数字呢，依次则是过去 1 分钟、5 分钟、15 分钟的平均负载（Load Average）。

明白了怎么看平均负载后，那么平均负载到底是多少才是合理的呢？

当平均负载高于 CPU 数量 70% 的时候。就应该分析排查负载高的问题了。一旦负载过高，就可能导致进程响应变慢，进而影响服务的正常功能。

但 70% 这个数字并不是绝对的，最推荐的方法，还是把系统的平均负载监控起来，然后根据更多的历史数据，判断负载的变化趋势（可从 uptime 得到的三个数字分析）。当发现负载有明显升高趋势时，比如说负载翻倍了，你再去做分析和调查。

平均负载在最理想的情况下，就是每个 CPU 上都刚好运行着一个进程，这样每个 CPU 都得到了充分利用。

比如当平均负载为 2 时，意味着什么呢？

好了，关于平均负载的基本知识差不多就是这样。现在，我来填下开头的坑 —— 为什么和 CPU 使用率没直接关系呢？

在文章最开始的时候就有提到，平均负载是指单位时间内，处于可运行状态和不可中断状态的平均进程数。所以，它不仅包括了正在使用 CPU的进程，还包括等待 CPU和等待 IO的进程。

而 CPU 使用率，是单位时间内 CPU 繁忙情况的统计，跟平均负载并不一定完全对应。比如：

以上，就是文章的全部内容了，如果觉得有帮助的话，那就点个赞吧

本文整理自极客时间：《Linux性能优化实战》

PS：本文原创发布于微信公众号「不只Java」，后台回复以下关键字获取经典必读书籍： Java、MySQL、Redis、Linux、mq、数据结构、设计模式、编程思想、架构。

公众号专注分享 Java 干货、读书笔记、成长思考。