记录一次哭笑不得的服务器故障

83 阅读3分钟

事件背景

我们部门购买了几台服务器,用于训练大模型。刚开始环境搭建什么的,一切都很顺利。服务器和GPU也正常使用。

突然有一天,我发现服务器上有一块显卡识别不到了。我重启了一下服务器,还是识别不到。

我分析了一下情况,应该不是驱动的问题,因为这个服务器上同样类型的其他显卡还是正常使用的。

由于需要去跟IT部门的联系,然后去机房查看具体情况,比较麻烦,就搁置了下来。

解决过程

后面有空了,我就联系服务器的售后。售后的工程师跟我说可能是驱动的问题,让我重装驱动。我就跟他说了一下我的分析,其他的卡能看到,应该不是驱动问题。

他们的工程师跟我讲可以去服务器的BMC管理页面,去看看能不能识别到显卡的这个PCIE槽位。我就去了公司机房,到BMC页面查看了一下,果然跟我的分析一致,就看不到这个PCIE槽位上的显卡信息。

他们工程师让我把几块显卡位置调换一下,看看能不能识别到。我就关了服务器电源,把服务器盖板打开,打算这么操作。为了安全,我想着先把显卡的电源线拔掉。显卡的电源线一端是GPU,我拔了一下,比较难弄下来。我就去拔电源线的另一端,结果我就有了重大发现,轻轻一拔就拔下来了。我看了看那个接头是有卡扣的,不应该这么容易拔下来吧。

我突然灵光一闪,是不是这个电源接口没插好,导致了服务器识别不到这个显卡?如果是这个原因,那么一切都说得通了。我立马把服务器装好,重新上电。果然这次,BMC里面能看到这个卡了,进入操作系统,也能看到这个卡。。。。

我整个一大无语啊。。。供应商没给我们把这个显卡装好。导致我们有好长时间没法用这个卡,还花了2天跟他们沟通,然后调试。

故障复盘

  • 这次故障的起因是供应商没有帮我们把显卡安装到位。刚开始的时候,GPU电源是正常连接的,只是卡扣没有扣紧。

  • 我这边安装服务器,放到机架上的过程都是比较小心的,没有把GPU电源弄松。

  • 后面突然访问不了,是因为其他部门在我们的那个机架上放置了一台服务器,估计是他们安装的时候,让机架产生了震动,震松掉了我们服务器GPU的电源线。所以我们使用的过程,突然连不上这个显卡了。

总结

  • 服务器跟我们自己的台式机是差不多的,一定要自己勇于上手处理问题,说不定就解决了呢。。。
  • 有些问题不一定是大问题(如显卡坏了),也有可能是一些小问题导致的(接口没插好),一定要善于分析问题,尝试解决问题。