记录一次显卡负载提升后系统重启问题

106 阅读1分钟

1. 环境****

1.1. 硬件****

服务器:R740XD

显卡:Tesla V100 SXM2 16GB

外置电源(用于显卡供电):大水牛

1.2. 软件****

系统:Ubuntu12.04.02

2. 问题现象****

在模型训练阶段,显卡上负载后不定时系统重启。经查阅日志syslog、journalctl、sudo ipmitool sel list,发现是显卡pci槽位报错导致。

image.png

2b | 05/09/2025 | 04:30:12 PM CST | Physical Security #0x73 | General Chassis intrusion () | Asserted

2c | 05/09/2025 | 04:40:57 PM CST | Critical Interrupt #0x18 | Bus Fatal Error ( Slot 5) | Asserted

2d | 05/09/2025 | 04:40:57 PM CST | Critical Interrupt #0x38 |  | Asserted

2e | 05/09/2025 | 04:40:57 PM CST | Unknown #0x1a |  | Asserted

2f | 05/09/2025 | 04:40:57 PM CST | Unknown #0x1a |  | Asserted

经更换PCIe延长线、PCIe槽位均不能解决问题。

3. 问题原因****

在进行硬件更换定位问题原因时意外发现,外置电源的电源线断开后,服务器开机时显卡风扇专断、外置电源风扇转动,所以怀疑外置电源并没有给显卡供电。当显卡负载提高时,服务器会出现重启。

image.png

4. 解决办法****

短接外置电源pin口,传递开机信号,使外置电源持续供电。经24小时烤机,发现不再出现显卡负载高时系统重启问题。

a4d5812a3c773622c7c22193e6907a37.jpg

885611311e1dab1b003f601a20fa644b.jpg