TOP命令参数使用详解

254 阅读9分钟

原文地址 zhuanlan.zhihu.com

一、top 命令介绍

相信每个运维人员都遇到过的事情就是服务器的负载突然飙升,碰到这种情况,大家第一反应一定是登到服务器上,先敲一个 top 命令看看 load average 吧。

在 Linux 操作系统中,top 是使用最频繁,也是信息比较全的一个命令,它对于所有正在运行的进行和系统负荷提供不断更新的概览信息,包括系统负载、CPU 利用分布情况、内存使用、每个进程的资源占用情况等信息,今天这篇文章和大家说说怎么看懂 top 命令。

二、top 命令输出结果解析

执行 top 命令后,默认会出现如下内容:

top 命令输出了很多参数,真正的服务器负载情况我们要综合其他参数一起看,运行结果可以分为两部分:

  • 第一部分是前 5 行,是系统整体的统计信息;
  • 第二部分是第 8 行开始的进程信息,我们从上往下逐行依次进行说明。

2.1 系统整体的统计信息

第一行:

top - 16:20:38 up 12 days,  5:24,  2 users,  load average: 0.04, 0.03, 0.05
  • top:当前时间。
  • up:机器运行了多长时间。
  • users:当前登录用户数。
  • load average:系统负载,即任务队列的平均长度。三个数值分别为 1 分钟、5 分钟、15 分钟前到现在的平均值。

这里具体需要关注的还是 load average 三个数值。先来说说定义吧:在一段时间内,CPU 正在处理以及等待 CPU 处理的进程数之和。三个数字分别代表了 1 分钟,5 分钟,15 分钟的统计值,这个数值的确能反应服务器的负载情况。

但是,这个数值高了也并不能直接代表这台机器的性能有问题,可能是因为正在进行 CPU 密集型的计算,也有可能是因为 I/O 问题导致运行队列堵了。所以,当我们看到这个数值飙升的时候,还得具体问题具体分析。

大家都知道,一个 CPU 在一个时间片里面只能运行一个进程,CPU 核数的多少直接影响到这台机器在同时间能运行的进程数。所以一般来说 Load Average 的数值别超过这台机器的总核数,就基本没啥问题。

第二行:

Tasks: 127 total,   1 running, 126 sleeping,   0 stopped,   0 zombie
  • Tasks:当前有多少进程。
  • running:正在运行的进程数。
  • sleeping:正在休眠的进程数。
  • stopped:停止的进程数。
  • zombie:僵尸进程数。

这里 running 越多,服务器自然压力就越大。

第三行:

%Cpu(s):  0.3 us,  0.7 sy,  0.0 ni, 99.0 id,  0.0 wa,  0.0 hi,  0.0si,  0.0 st
  • us:用户空间占 CPU 的百分比(像 shell 程序、各种语言的编译器、各种应用、web 服务器和各种桌面应用都算是运行在用户地址空间的进程,这些程序如果不是处于 idle 状态,那么绝大多数的 CPU 时间都是运行在用户态)。

  • sy:内核空间占 CPU 的百分比(所有进程要使用的系统资源都是由 Linux 内核处理的,对于操作系统的设计来说,消耗在内核态的时间应该是越少越好,在实践中有一类典型的情况会使 sy 变大,那就是大量的 IO 操作,因此在调查 IO 相关的问题时需要着重关注它)。

  • ni:用户进程空间改变过优先级(ni 是 nice 的缩写,可以通过 nice 值调整进程用户态的优先级,这里显示的 ni 表示调整过 nice 值的进程消耗掉的 CPU 时间,如果系统中没有进程被调整过 nice 值,那么 ni 就显示为 0)。

  • id:空闲 CPU 占用率。

  • wa:等待输入输出的 CPU 时间百分比(和 CPU 的处理速度相比,磁盘 IO 操作是非常慢的,有很多这样的操作,比如,CPU 在启动一个磁盘读写操作后,需要等待磁盘读写操作的结果。在磁盘读写操作完成前,CPU 只能处于空闲状态。Linux 系统在计算系统平均负载时会把 CPU 等待 IO 操作的时间也计算进去,所以在我们看到系统平均负载过高时,可以通过 wa 来判断系统的性能瓶颈是不是过多的 IO 操作造成的)。

  • hi:硬中断占用百分比【硬中断是硬盘、网卡等硬件设备发送给 CPU 的中断消息,当 CPU 收到中断消息后需要进行适当的处理 (消耗 CPU 时间)】。

  • si:软中断占用百分比(软中断是由程序发出的中断,最终也会执行相应的处理程序,消耗 CPU 时间)。

  • st:steal time。

第四行:

KiB Mem : 1863012 total, 1286408 free,  216532 used, 360072 buff/cache
  • total:物理内存总量。
  • free:空闲内存量。
  • used:使用的内存量。
  • buffer/cache:用作内核缓存的内存量。

第五行:

KiB Swap: 5242876 total, 7999484 free,     0 used. 1468240 avail Mem
  • total:交换区内存总量。
  • free:空闲交换区总量。
  • used:使用的交换区总量。
  • buffer/cache:缓冲的交换区总量。

第四第五行分别是内存信息和 swap 信息,所有程序的运行都是在内存中进行的,所以内存的性能对与服务器来说非常重要。不过当内存的 free 变少的时候,其实我们并不需要太紧张。真正需要看的是 Swap 中的 used 信息。

Swap 分区是由硬盘提供的交换区,当物理内存不够用的时候,操作系统才会把暂时不用的数据放到 Swap 中。所以当这个数值变高的时候,说明内存是真的不够用了。

2.2、进程信息

PID    USER    PR  NI  VIRT    RES   SHR   S  %CPU  %MEM     TIME+  COMMAND            
21829  root    20   0  0       0     0     S   0.7  0.6   129:53.91  java
22559  root    20   0  158920  5628  4268  S   0.3  9.2   139:42.81  java
22598  root    20   0  162112  2208  1540  S   0.3  0.1   0:04.68    fluentd
PID  进程id
USER  进程所有者的用户名
PR       优先级
NI    nice值,负值表示高优先级,正值表示低优先级
VIRT  进程使用的虚拟内存总量,单位kb。VIRT=SWAP+RES
RES    进程使用的、未被换出的物理内存大小,单位kb。RES=CODE+DATA
SHR    共享内存大小,单位kb
S    进程状态。D=不可中断的睡眠状态 R=运行 S=睡眠 T=跟踪/停止 Z=僵尸进程
%CPU  上次更新到现在的CPU时间占用百分比
%MEM  进程使用的物理内存百分比
TIME+  进程使用的CPU时间总计,单位1/100秒
COMMAND  命令名/命令行

默认情况下仅显示比较重要的 PID、USER、PR、NI、VIRT、RES、SHR、S、%CPU、%MEM、TIME+、COMMAND 列,还有一些参数,例如:

PPID  父进程id
GROUP   进程所有者的组名
SWAP:  进程使用的虚拟内存中被换出的大小
CODE  可执行代码占用的物理内存大小,单位kb
DATA  可执行代码以外的部分(数据段+栈)占用的物理内存大小,单位kb
nFLT  页面错误次数
nDRT  最后一次写入到现在,被修改过的页面数。
WCHAN  若该进程在睡眠,则显示睡眠中的系统函数名
Flags  任务标志

三、top 命令使用

3.1、更改显示内容

通过按 f 键可以编辑显示内容,按 f 键后,会出现下图:

根据上图可知:

①当前是按照 %CPU 这一列来排序的。

②可以通过上、下键来选择。

③按右键可以选择整个列,然后按上、下键来移动整个列的显示位置,前移或后移,按回车确定。

④按空格键来显示或隐藏该列,带 * 的是显示,不带 * 的是不显示。

⑤按 s 键可以将当前列设置为排序列。

⑥按 q 键退出。

3.2、top 常用参数

top 命令的格式为:

top [选项]

top 命令常用的选项参数:

例如:

top   每隔3秒显式所有进程的资源占用情况
top -d 1  每隔1秒显式所有进程的资源占用情况
top -c    每隔3秒显式进程的资源占用情况,并显示进程的命令行参数(默认只有进程名)
top -p 28820 -p 38830   每隔3秒显示pid是28820和pid是38830的两个进程的资源占用情况
top -d 2 -c -p 69358  每隔2秒显示pid是69358的进程的资源使用情况,并显式该进程启动的命令行参数

3.3、top 的交互命令

默认进入 top 时,各进程是按照 CPU 的占用量来排序的。

① 敲 top 后,按键盘数字 “1” 可以监控每个逻辑 CPU 的状况:

② 敲 top 后,输入 u,然后输入用户名,则可以查看相应的用户进程;

③ 敲 top 后,top 命令默认以 K 为单位显示内存大小,我们可以通过大写字母 E 来切换内存信息区域的显示单位,如下按一下 E 切换到 MB:

再按一下 E 切换到 GB:

④ 敲 top 后,输入 h 进入 top 命令的帮助文档,了解更多关于 top 的用法。

top 当然是我们最常见的查看系统状况的命令。其他命令还有很多,比如 vmstat,w,uptime ,iostat 这些都是常用的命令。

综上

top 命令具有非常强大的功能,看懂这些具体参数以后,就知道自己的代码到底哪方面需要改进了,是优化内存消耗,还是优化你的代码逻辑。