AIX之系统简单排错(巡检可用)

501 阅读4分钟

温故:

        事情是这样的:今天用户提了一个需求,需要在AIX系统中为他的网卡再配置一个IP地址,使得这个网络接口能连接到不同网段,于是我就使用了这个命令:

ifconfig en9 192.168.1.2 netmask 255.255.255.0 alias

效果是这样的

 如果对上面的内容感兴趣请看《AIX之网络接口配置

知新:

        中秋节假期还要值班很不爽的,但是又有什么办法呢?不知道看到我这篇文章的你们是否也在值班,也许你们正在家里浪呢哈哈哈。

        今天只讲一个小知识点,主要说说如何简单的进行AIX系统的排错,比较深的知识咱们先不讲,先抛砖引玉,由浅至深。

一、如何确认问题

        作为机场的运维人员,一般在发生问题的时候,我们都会根据问题的性质和发生的位置,询问系统现在的情况,对业务是否有影响,毕竟维持业务运行是第一要务。

  •         接下来还要问清楚用户该问题什么时候发生的?
  •         是高频次发生还是偶尔发生?
  •         如何是高频次发生是否都在固定时段?
  •         发生问题的是单台服务器还是整个系统?
  •         最近是否做过配置修改?

二、如何进行简单检查

        (1)使用 errpt 命令查看错误日志报告的摘要,留神观察最近增加的日志记录。用 errpt -a命令检查任何可疑的详细的错误日志记录,errpt日志文件就是存放在/var/adm/ras/errlog。

errpt


(2)用df- g 命令检查系统的磁盘空间。当一个文件系统空间被占满之后,就会导致大量的问题出现,甚至系统崩溃,因此最好要避免这种情况的发生。对付一个几乎被占满的文件系统,只能删除一些文件来释放空间或者用LVM扩展这个文件系统的空间,当然这要根据文件系统中数据的实际情况和卷组中是否有可用的空间来定。

df -g


(3)用lsvg 命令检查卷组中是否存在陈旧(未同步)的分区。如果存在陈旧分区、逻辑卷或物理卷,尝试用 syncvg 命令来同步它们。

lsvg vgname


(4)用 lsps -s命令检查系统的页面空间。

lsps -s


(5)用lssrc -a 命令检查所有要求的子系统是否正常运行。

lssrc -a


(6)通过用 ping 命令连通一个众所周知的IP 地址来检查系统的网络的通信状况。

ping 

三、收集信息

        通过使用不同的命令,例如lsdev,lspv,Isvg,lslpp,lsattr,df和 mount 命令,能够检查出机器是如何配置的,错误是如何产生的,以及操作系统的状态。此外,执行errpt 命令可以获得由系统记录的错误日志,这个错误日志能够较清楚地描述问题。当然了,还可以查看其他的日志,比如:

1、用户的登录日志

存放路径:/var/adm/wtmp   

说明: 这些日志记录了用户登录和访问服务器的情况信息,具体的日志文件有wtmp.wtmp记录的是历史的login和lognout信息,可以用last命令访问。
如:Last –f wtmp
我们想查看最近10次登录的用户和他们的地址,可以用如下命令:

2、集群管理软件hacmp的日志

存放路径:/tmp/hacmp.out

说明: HACMP是IBM提供的确保系统运行可靠性的集群套件,HACMP在每次启动和关闭时都要经历一段时间以停止服务和转换文件系统,我们可以通过对HACMP。OUT日志文件的跟踪实时的了解HACMP在启动和关闭时的信息,如出现启动失败则可以帮助我们定位错误,关于这个日志的路径一般来说有两个分别是/var/hacmp/log/hacmp.out和/tmp/hacmp.ou。

   可以使用tail进行跟踪,tail –f /tmp/hacmp.out

3、系统启动错误日志

存放路径:/var/adm/ras/bootlog

说明:该日志可以跟踪系统在Boot过程中发生的问题,包括服务器液晶板上的代码信息都有记载。可以使用alog命令监视这些问题, 存放在/var/adm/ras/bootlog中,可以使用alog –o –t boot命令查看该文件。

关于这部分内容在《AIX巡检怎么做?查什么?》中也有体现,有兴趣的可以去看看。