Linux 系统性能分析 (一)：Top等系统工具**Load Average（系统平均负载）** 反映的是**系统整体

Linux 系统性能分析 (一)：Top等系统工具

在许多运维或后端开发者的惯性思维中，“负载高 = CPU 不够用了”。但你是否遇到过这样的诡异场景：系统的 Load Average 已经飙到了 20，可 CPU 使用率却优哉游哉地停留在 10%？

如果你直接去扩容 CPU，大概率会发现钱花了，问题却一点没解决。今天我们就来拆解 Linux 负载的底层逻辑，看看这个“熟悉的陌生人”到底在表达什么。

简单来说，Load Average（系统平均负载） 反映的是系统整体对资源的需求程度。它不仅关乎 CPU，还关乎磁盘、网络等 I/O 资源。

在 Linux 中，负载的计算公式可以简化理解为：

$\text{Load Average} = \text{可运行状态进程 (R)} + \text{不可中断睡眠状态进程 (D)}$

💡 为什么要设计“D 状态”？

处于 D 状态的进程不接受任何信号（甚至是 kill -9）。这是 Linux 内核为了保护数据一致性设计的原子操作锁。如果此时强行中断进程，可能会导致文件系统损坏或内核崩溃。

因此，当你看到负载高时，系统可能正处于“计算忙”或“等锁忙”两种状态。

top 或 uptime 提供的三个数值分别对应过去 1 分钟、5 分钟、15 分钟的平均负载。

判断负载高低，必须结合 CPU 核心数。

健康阈值参考：

当负载异常时，我们需要结合 top 中的细分指标进行“排除法”诊断：

如果 CPU 空闲但负载高，直接执行以下命令寻找“元凶”：

Bash

# 查看当前系统中 D 状态进程的数量和名称
ps -e -o stat,comm | grep -E "^D"

磁盘 I/O：使用 iostat -x 1 观察 %util（磁盘繁忙度）。如果接近 100%，你的硬盘已经到极限了。
内存 Swap：执行 vmstat 1 观察 si (swap in) 和 so (swap out)。如果这两个值持续大于 0，说明内存不足触发了频繁的磁盘交换，这会直接把 Load 拉上天。

在理解了 Load Average 的本质后，我们不应止步于手动敲命令。从架构师的角度看，我们可以通过以下两个维度提升系统的专业性：

不要只针对“Load > 10”做简单告警。更专业的做法是多维度触发：

当传统的 top 和 iostat 只能告诉你“系统很忙”却说不清“谁在忙”时，eBPF (Extended Berkeley Packet Filter) 就是终极武器。

我们可以利用 BCC 工具集中的 offcputime：

负载高，先看 R 和 D；

CPU 忙则加核，I/O 忙则换盘；

内存 Swap 加内存；

短期峰值可接受，长期高位必有妖。

Load Average 只是系统压力的“晴雨表”。作为一个专业的开发者，我们要学会透过这个数字，看穿背后 CPU、内存、磁盘与内核调度之间的博弈。

在下一篇中，我们将深入探讨 eBPF 进阶实践，教你如何像外科医生一样精准切开系统的性能毒瘤。敬请期待！