linux命令分析系统性能问题

251 阅读4分钟

1 top命令详解

2021-07-27_090356.png top命令结果分为2部分
第一部分是前5行的统计信息,第二部分是进程信息(默认5秒刷新一次)

1 统计信息

第1行:Top 任务队列信息(系统运行状态及平均负载),与uptime命令结果相同
    • 第1段:系统当前时间,例如:16:07:37

    • 第2段:系统运行时间,未重启的时间,时间越长系统越稳定。

      • 格式:up xx days, HH:MM
      • 例如:241 days, 20:11, 表示连续运行了241天20小时11分钟
    • 第3段:当前登录用户数,例如:1 user,表示当前只有1个用户登录

    • 第4段:系统负载,即任务队列的平均长度,3个数值分别统计最近1,5,15分钟的系统平均负载

      • 系统平均负载:单核CPU情况下,0.00 表示没有任何负荷,1.00表示刚好满负荷,超过1侧表示超负荷,理想值是0.7;
      • 多核CPU负载:CPU核数 * 理想值0.7 = 理想负荷,例如:4核CPU负载不超过2.8何表示没有出现高负载。
第2行:Tasks 进程相关信息
  • 第1段:进程总数,例如:Tasks: 231 total, 表示总共运行231个进程
  • 第2段:正在运行的进程数,例如:1 running,
  • 第3段:睡眠的进程数,例如:230 sleeping,
  • 第4段:停止的进程数,例如:0 stopped,
  • 第5段:僵尸进程数,例如:0 zombie
第3行:Cpu使用信息
  • 第1段:us 用户空间占用CPU百分比,例如:Cpu(s): 12.7%us,
  • 第2段:sy 内核空间占用CPU百分比,例如:8.4%sy,
  • 第3段:ni 用户进程空间内改变过优先级的进程占用CPU百分比,例如:0.0%ni,
  • 第4段:id 空闲CPU百分比,例如:77.1%id,
  • 第5段:wa 等待输入输出的CPU时间百分比,例如:0.0%wa,
  • 第6段:hi CPU服务于硬件中断所耗费的时间总额,例如:0.0%hi,
  • 第7段:si CPU服务软中断所耗费的时间总额,例如:1.8%si,
  • 第8段:st Steal time 虚拟机被hypervisor偷去的CPU时间(如果当前处于一个hypervisor下的vm,实际上hypervisor也是要消耗一部分CPU处理时间的)
第4行:Mem内存相关信息
  • 第1段:物理内存总量,例如:Mem: 12196436k total,
  • 第2段:使用的物理内存总量,例如:12056552k used,
  • 第3段:空闲内存总量,例如:Mem: 139884k free,
  • 第4段:用作内核缓存的内存量,例如:64564k buffers
第5行:Swap交换区信息
  • 第1段:交换区总量,例如:Swap: 2097144k total,
  • 第2段:使用的交换区总量,例如:151016k used,
  • 第3段:空闲交换区总量,例如:1946128k free,
  • 第4段:缓冲的交换区总量,3120236k cached

2 进程信息

  • 第一段:PID = (Process Id) 进程Id
  • 第二段: USER = (User Name) 进程所有者的用户名
  • 第三段:PR = (Priority) 优先级
  • 第四段:NI = (Nice value) nice值。负值表示高优先级,正值表示低优先级
  • 第五段: IRT = (Virtual Image (kb)) 进程使用的虚拟内存总量,单位kb。VIRT=SWAP+RES
  • 第六段:RES = (Resident size (kb)) 进程使用的、未被换出的物理内存大小,单位kb。RES=CODE+DATA
  • 第七段:SHR = (Shared Mem size (kb)) 共享内存大小,单位kb
  • 第八段:S = (Process Status) 进程状态。D=不可中断的睡眠状态,R=运行,S=睡眠,T=跟踪/停止,Z=僵尸进程
  • 第九段:%CPU = (CPU usage) 上次更新到现在的CPU时间占用百分比
  • 第十段:%MEM = (Memory usage (RES)) 进程使用的物理内存百分比
  • 第十一段:TIME+ = (CPU Time, hundredths) 进程使用的CPU时间总计,单位1/100秒
  • 第十二段:COMMAND = (Command name/line) 命令名/命令行

2 cpu利用率100%,如何排查

第一步:使用top命令查看占用cpu占用率最高的进程,找到pid
第二步:使用top -Hp pid 命令找到这个pid占用线程最高的thread Id
第三步:将thread Id 转换为16进制,printf %x (thread id)
第四步:使用jstack命令定位具体是哪一行出现性能问题,jstack pid | grep 'thread Id' -C5 --color 排查