Linux应急手册第三期

59 阅读3分钟

小亦平台会持续给大家科普一些运维过程中可能会用到的的应急手册内容,运维朋友们可以在应急处理方案专栏查看更多案例

OP013 swap进程使用情况

操作步骤:

执行以下脚本收集swap使用进程信息:

ps ax -o pid,args | grep -v '^ PID'|sed -e 's,^ *,,' > /tmp/ps_ax.output

echo -n >/tmp/results

for swappid in $(grep -l Swap /proc/[1-9]*/smaps ); do

swapusage=0

for x in $( grep Swap $swappid 2>/dev/null |grep -v '\W0 kB'|awk '{print $2}' ); do

let swapusage+=$x

done

pid=$(echo $swappid| cut -d' ' -f3|cut -d'/' -f3)

if ( [ $swapusage -ne 0 ] ); then

echo -ne "$swapusage kb\t\t" >>/tmp/results

egrep "^$pid " /tmp/ps_ax.output |sed -e 's,^[0-9]* ,,' >>/tmp/results

fi

done

脚本执行完后执行如下命令结果如下:

#sort -nr /tmp/results | head -n 10

4707564 kb              ora_arc1_ibpsdb

4707204 kb              ora_arc3_ibpsdb

4678472 kb              ora_arc2_ibpsdb

4669084 kb              ora_arc0_ibpsdb

4665920 kb              oracleibpsdb (LOCAL=NO)

 

OP014 内存缺页情况

操作步骤:

系统上执行内存缺页检查命令:

sar -B

image.png

关键指标判断:

  • 当majflt/s(主缺页异常)值持续超过100时,表明内存使用紧张需要立即关注
  • majflt/s:表示每秒发生的主缺页异常次数(需从磁盘加载内存页)

 

OP015 进程缺页情况

操作步骤:

系统上执行缺页监控:

pidstat -r -p 1 1

image.png

关键指标:

  • 检查majflt/s是否超过100,若持续超过表明该进程内存使用异常
  • %MEM:进程内存占用百分比
  • Command:进程名称
  • PID:进程标识符

 

OP016 整体IO使用情况

操作步骤:

系统上执行:

iostat -d -x 1

image.png 关键阈值判断:

  • 当%util持续达到100%时,表明磁盘存在性能瓶颈
  • 当await超过500ms时,表明IO延迟过高需检查存储系统

参数说明:

  • await:平均每次IO请求等待时间(毫秒)
  • %util:统计周期内设备繁忙时间占比

 

OP017 blktrace工具分析

操作步骤:

  1. 安装必要工具:

yum -y install blktrace

2.     先采集io数据后解析采集数据

blktrace -d /dev/sda

ls -l blktrace

blkparse -i sda

3.     btt分析

合并为一个文件

blkparse -i sda -d sda.blktrace.bin

btt分析sda.blktrace.bin

btt -i sda.blktrace.bin

4.     blktrace示例解释

image.png

整个IO 处理时间Q2C 平均耗时321ms,最大1.9s,其中硬盘处理时间D2C占整IO处理时间94%,平均耗时302ms,最大1.4s,可以说明await消耗发生在硬件层面。

  • Q2G – 生成IO请求所消耗的时间,包括remap和split的时间;
  • G2I – IO请求进入IO Scheduler所消耗的时间,包括merge的时间;
  • I2D – IO请求在IO Scheduler中等待的时间;
  • D2C – IO请求在driver和硬件上所消耗的时间;
  • Q2C – 整个IO请求所消耗的时间(Q2I + I2D + D2C = Q2C),相当于iostat的await。

 

OP018 rhel5进入救援模式

操作步骤:

Linux进入rescue mode,需要用系统重启用ISO引导 ,ISO版本和系统版本应保持一致。系统成功从ISO映像启动后:

image.png

如下界面输入:linux rescue image.png

选择键盘和语言

image.png

image.png

是否启用网络,一般选择No,如果启用网络可以通过rsync、scp测试文件 image.png

如果网络选择yes,按下面操作: image.png

image.png

image.png

image.png

选择continue image.png

选择OK

image.png

输入chroot /mnt/sysimage

image.png

点击即刻前往小亦知识库查看Linux应急手册完整版:www.ces-xiaoyi.com.cn/?wework_cfm…

运维工作中遇到难题?立即提交工单:www.ces-xiaoyi.com.cn/#/workOrder…