Linux应急手册第二期

44 阅读3分钟

小亦平台会持续给大家科普一些运维过程中可能会用到的的应急手册内容,运维朋友们可以在应急处理方案专栏查看更多案例。

OP007 系统进程运行情况

操作步骤:

系统上执行以下命令监控进程状态:

#vmstat 1

image.png 关键指标分析:

  • 重点关注r列(运行队列)数值

  • 当r列值持续高于系统逻辑CPU数时,表明CPU资源不足,CPU处于严重过载状态

(逻辑CPU数查看命令:# grep processor /proc/cpuinfo |wc -l)

参数说明:

  • r列:表示当前正在运行和等待CPU时间片的进程总数

 

OP008 CPU上下文、中断情况

操作步骤:

系统上执行vmstat命令监控CPU状态:

#vmstat 1

image.png 关键指标分析:

  • 关注cs(上下文切换)列值,若持续大于10000,表明CPU资源不足导致系统性能下降

  • 关注in(中断)列值,检查中断数是否持续增长

参数说明:

  • cs(context switch):表示每秒上下文切换的次数

  • in (interrupts):表示每秒CPU处理的中断次数

 

OP009 进程上下文切换情况

操作步骤:

系统上执行以下命令监控进程上下文切换:

#pidstat -w -t 1

image.png 关键指标分析:

  • 关注cswch和nvcswch列值,若持续大于10000,表明CPU资源不足导致系统正题性能下降

参数说明:

  • cswch:表示每秒自愿上下文切换(voluntary context switches)的次数,是指进程无法获取所需资源,导致的上下文切换。比如说, I/O、内存等系统资源不足时,就会发生自愿上下文切换。

  • nvcswch:表示每秒非自愿上下文切换(non voluntary context switches)的次数,是指进程由于时间片已到等原因,被系统强制调度,进而发生的上下文切换。比如说,大量进程都在争抢 CPU 时,就容易发生非自愿上下文切换。

  • Command: 对应的任务名称

OP010 CPU中断情况

操作步骤:

  1. 通过top命令查看整体中断情况:

#top

image.png

  • 关注in列值,检查中断是否持续增加
  • in (interrupts):表示每秒CPU的中断次数
  1. 分析软中断类型:
watch -d "/bin/cat /proc/softirqs | /usr/bin/awk 'NR == 1{printf \"%-15s %-15s %-15s %-15s %-15s\\n\",\" \",\$1,\$2,\$3,\$4}; NR > 1{printf \"%-15s %-15s %-15s %-15s %-15s\\n\",\$1,\$2,\$3,\$4,\$5}'"

image.png

  • 观察变化速率最快的硬中断类型

OP011 整体内存使用情况

操作步骤:

系统上执行free命令查看内存使用:

  1. RHEL5/6系统:

#free -m

image.png

  • 可用内存计算:free + buffers + cached

  • 可用swap:swap行free列

 

  1. RHEL7/8/9系统:

#free -m

image.png

  • 可用内存:available列(包含free + 部分buff/cache + slab)

  • 可用swap:swap行free列

 

OP012 使用内存前10进程

操作步骤:

  1. 查看内存占用最高的10个进程:

#ps -eo pmem,pcpu,pid,ppid,user,stat,args|sort -k 1 -r |head -11

image.png 关键列说明:

  • %MEM:进程内存使用百分比

  • COMMAND: 进程对应的执行命令

  • PID:进程标识符

 

  1. 查看指定进程内存使用详情(示例为PID=1的进程):

pidstat -r -t -p 1 1

image.png

点击即刻前往小亦知识库查看Linux应急手册完整版:www.ces-xiaoyi.com.cn/?wework_cfm…

运维工作中遇到难题?立即提交工单:www.ces-xiaoyi.com.cn/#/workOrder… 小亦平台工程师火速响应,助您快速修复故障!