物理服务器硬件故障的应对和解决需要遵循一定的流程和方法,以下是具体介绍:
-
故障诊断与定位
- 外观检查:检查服务器指示灯是否正常,有无明显异味、异响,外观有无明显磕碰、变形等物理损伤,电源线、电源开关是否正常。
- 查看日志:通过 IPMI/iDRAC 等管理接口查看硬件健康报告,确认是否有硬件告警。同时,查看系统日志,如 Linux 系统的 /var/log/messages 文件,搜索 “panic”“error” 等关键词,定位故障信息。
- 最小化测试法:当无法定位到具体故障时,可以采用最小化配置进行测试。除了主板外,只保留单颗 CPU、单根内存、一个 PSU,用短接开关针脚方式开机,来进行判断。再依次替换部件进行排查。
- 替换法:当大概知道故障范围时,可以通过替换疑似故障部件来查找出具体故障。可以先替换比较容易出故障的部件,比如硬盘、内存等,观察故障现象是否消失,以此定位故障部件。
- 交叉比较法:通过同类型的部件交叉安装测试,来排除故障部件。如果出现故障状况消失,则有可能是部件安装不到位。如果故障状况随报错部件转移,则可以判断此报错部件为故障,将其更换。
-
常见硬件故障的解决方法
- CPU 故障:若无法开机,可查看服务器的 BMC log 日志,定位故障 CPU 位置,拆机检查 CPU 和散热器是否存在接触问题,重新拆装 CPU 确认接触针脚是否弯曲不良,也可进行单 CPU 测试、交叉更换 CPU 测试等。若死机或频繁自动重启,可进 BMC 系统查看 CPU 温度以及各风扇状态是否正常,检查散热情况,如温度正常,则交叉测试 CPU,确认是否是 CPU 自身故障。
- 主板故障:若无法开机,先查看 BMC log 日志的报错信息,如有明确的信息,则按照信息更换相应的硬件。如果故障件集成在主板上,则需要更换主板。也可拆机检查主板外观是否异常,如有物理损坏,直接更换主板,还可以给主板 CMOS 电池放电,再测试开机。若死机或者无法识别连接部件,可查看 CPU 温度是否过高,排除 CPU 故障,通过替换法测试,最小化配置法测试。
- 内存故障:内存故障主要原因为内存松动、内存不良、主板内存插槽不良、内存金手指氧化等。可以查看 BMC log 日志信息,是否存在告警。解决时可重新插拔内存,确保安装到位,两边的卡扣必须卡紧,若故障依旧,可更换内存进行测试。
- 硬盘故障:硬盘故障主要原因为硬盘松动、硬盘接触不良、插接件不良以及松动等。查看硬盘状态指示灯是否正常,如果为红灯状态,则确认为硬盘故障,需要更换此硬盘。根据报错日志、BMC 日志等,定位报错硬盘物理位置,如果硬盘批量丢失,需要替换测试 RAID 卡和硬盘背板是否存在故障。
- 电源故障:电源故障主要原因为电源接触不良、电源线松动、电源背板不良或松动。检查电源线是否插上或插紧,检查 PSU 指示灯是否正常,更换 PSU 后,电源仍无法工作,检查 PSU 背板或主板。
- 风扇故障:风扇故障主要原因为风扇不良、插接不良、线位不对、主板风扇电源口故障或主板 BMC 版本与风扇型号不符等。进 BMC 系统检查是否可以识别到风扇,风扇转速是否在正常范围,拆机检查风扇,并重新插拔,更换新风扇后再进行测试,如果风扇转速还是异常,则更换风扇背板,若依然无法解决,直接更换主板。
- 网卡故障:检查网卡指示灯,如果网卡指示灯不亮,更换网线测试,如果还不亮,则网卡故障。在 OS 下查看,是否可以识别到网卡信息,如果没有的话,重新插拔一下网卡,如果依旧无法识别,则网卡故障。
-
备用硬件与快速替换:为了缩短故障恢复时间,应备有关键硬件的备件,如硬盘、内存条、电源等。当发生故障时,可以迅速替换故障部件,恢复服务器的正常运行。
-
预防措施:定期对服务器进行巡检,检查硬件状态,清理灰尘,更换老化部件。合理配置硬件资源,如采用 RAID 阵列、冗余电源等。建立完善的环境监控系统,实时监测服务器的温度、湿度、电压等关键参数,并设置报警阈值。
——椰子——