Linux应急手册第一期

64 阅读3分钟

小亦平台会持续给大家科普一些运维过程中可能会用到的的应急手册内容,运维朋友们可以在往期文章中查看更多案例。

OP001 收集系统日志

操作步骤:

在系统上执行以下命令收集完整系统信息:

sosreport -a

命令执行完成后,系统会在/var/tmp/目录下生成sosreport-hostname.tar.xz格式的压缩文件

检查关键系统日志文件内容:

/var/log/message   # 系统主日志

/var/log/mcelog    # 硬件错误日志(特别是内存相关错误)

查看历史性能数据(sar报告存储在/var/log/sa/目录):

sar -q -f /var/log/sa/saX  查看历史系统负载情况

sar -u -f /var/log/sa/saX  查看历史CPU使用率

sar -b -f /var/log/sa/saX  查看历史磁盘读写IO统计

sar -S -f /var/log/sa/saX  查看历史swap空间使用率

sar -r -f /var/log/sa/saX  查看历史内存使用情况

sar -n DEV -f /var/log/sa/saX  查看历史网络流量数据

注意:saX中的X需替换为具体日期数字(如sa01表示当月1日的数据)

OP002 整体CPU使用情况

操作步骤:

在系统上执行top命令查看实时CPU状态:

top

image.png 关键指标判断标准:

  • 当us(用户空间)+sy(系统空间)的CPU占用总和大于60%时,表明系统CPU负载较高,需要进一步排查具体原因

  • 如果us单独占用超过60%,应重点检查业务应用程序的CPU使用是否合理

  • 正常情况下sy值应维持在10%左右,若持续高于10%,需排查系统进程异常情况

OP003 使用CPU前10进程

操作步骤:

执行以下命令查看CPU占用最高的10个进程:

ps -eo pcpu,pmem,pid,ppid,user,stat,args | sort -k 1 -r | head -11

image.png 重点关注列说明:

  • %CPU:进程的CPU使用百分比
  • COMMAND: 进程对应的执行命令
  • PID:进程的唯一标识符

查看指定进程及其线程的详细CPU使用情况(示例为PID=1的进程):

pidstat -u -t -p 1 1

image.png

OP004 系统负载使用情况

操作步骤:

通过top命令查看系统负载状态:

top

image.png 负载判断标准:

  • load average值应低于系统逻辑CPU核心数(逻辑CPU数查询命令:# grep processor /proc/cpuinfo |wc -l)

  • 若load average持续高于逻辑CPU数,表明系统过载,需立即排查

负载值含义分析(load average: 4.10, 3.39, 2.21):

  • 第一个值(4.10):过去1分钟的平均负载

  • 第二个值(3.39):过去5分钟的平均负载

  • 第三个值(2.21):过去15分钟的平均负载

趋势判断:

  • 若三个数值基本一致,表明系统负载平稳

  • 若1分钟值远小于15分钟值,说明近期负载呈下降趋势

  • 若1分钟值远大于15分钟值,说明近期负载呈上升趋势

OP005 系统IO使用情况

操作步骤:

通过top命令查看基础IO状态:

top

image.png 使用iostat命令获取详细IO统计:

iostat

image.png 关键指标:

  • 重点关注%iowait数据情况,该值表示CPU等待IO操作的时间占比

  • 当iowait持续高于5%时,表明存在IO瓶颈,需结合OP006进一步排查

OP006 进程IO使用情况

操作步骤:

使用iotop命令查看进程级IO使用情况:

iotop

image.png 关键字段说明:

  • IO列:实时显示进程当前的IO读写速率

  • COMMAND列:执行IO操作的任务名称

此命令可直观定位高IO消耗的进程,是诊断IO性能问题的有效工具

点击即刻前往小亦知识库查看Linux应急手册完整版:www.ces-xiaoyi.com.cn/?wework_cfm…

运维工作中遇到难题?立即提交工单:www.ces-xiaoyi.com.cn/#/workOrder… 小亦平台工程师火速响应,助您快速修复故障!