记录从装机到搭建PyTorch的爬坑记录-1

114 阅读8分钟

装机

这是我作为装机小白的第一次装机。

虽然之前已经关注装机猿多年,云装机多次,但是这是我的第一次上手实战。

这是一个难能可贵的经历,相信就算是终老之时咀嚼起来都是值得反复受用的回忆。

这是公司为我的AI项目配的一台机箱,配置拉满,可以说是让我在28岁一穷二白的年纪提前摸到了这个价值数万的计算机。

截止2025年8月初,这套配置仍然是大陆范围内最顶的个人主机配置了:

怎么样,吊不吊?

但是,中国有句古话,叫只见贼吃肉,没见贼挨打,为了装这个机箱,我与同事从下午5点一直边摸索边边实践,搞到晚上10:56才撤退,过程中还录了一个vlog记录这个人生第一次。

装机步骤一览

  • 主板
  • 打开CPU插槽的小盖子(通过拨开一根旁边的小铁棍实现),把Intel没有突出针脚的CPU放在对应的位置上,注意CPU的小三角在矩形的那一个角上,搞对方向。
  • 轻轻合盖,用小铁棍往回扣的时候,保护盖会自己跳开,将CPU的银色亮面亮出来。
  • 找到插入内存条的四个插槽,将两张内存条按照A2B2两个位置插入(这是行业内的推荐位置),插入的时候,右侧拨开的小卡口会自动合回(只能说这是机械设计的巧思)。
  • 拨开CPU下方的磁盘散热盖卡口,把散热盖取出,将胶皮垫片放在螺丝口凹陷位置,说是为了防止磁盘插入后不牢固导致的震动,将小卡推到能够卡住磁盘半圆形凹槽的位置,合盖即可。
  • 机箱带有的USB线、风扇线、RGB灯线一定要规划好地方,我们是装完电源才发现这些线没装。
  • 水冷(没想到我这个小白第一次装机就是水冷)
  • 将背部支架从主板背面插入(如果尺寸不合适可以将四个角柱推开,推到合适位置)。
  • 将正面的水泵通过胶皮柱和垫片架在CPU正上方,注意方向哦,水冷的水泵一般是预涂硅脂的,这个可以确认一下。
  • 固定风扇前,先把电源的所有走线完成,不然因为没有规划好走线,只能把风扇拆了装装了拆,烦的要死。
  • 电源(我认为最难的一步)
  • 我们需要给主板(最大的一个插头)、CPU(两个相同的插头)、显卡(PCIE)做供电,走线非常难,
  • 我们遵循的基本上是能在背面不在前面的原则,具体怎么理线,作为小白没有太多可以分享的。
  • 机箱
  • 左右侧板、顶板都能打开,建议全部拆除。
  • 装机时最好将安装主板的一侧面向自己,坐着装,这样省力,我们前期都是站着弯着腰,很费劲。
  • 显卡
  • 这个5090D真的很吊,我再次强调,是我目前能接触到的最嗯的显卡了。
  • 5090D右侧设计有一个支架,这个要提前装上去,相当于一条支撑腿,与后面的螺丝共同支撑显卡不掉下来。
  • 要考虑的是拆掉5090D对应的后面网格栅,然后把显卡慢慢插进去,注意金手指豁口的位置对应。
  • 接上电源线即可。
  • 多赠送的一个风扇因为没有空间了,所以我们直接没装。
  • 最后一步通电、然后按启动按钮,一次点亮~。

Ubuntu系统

  • 说实话我内心是想装一个Win11,直接steam的。但是这毕竟是公司资产,领导对我委以重任,我还是要以工作为重,所以装了Ubuntu,希望能够让AI开发纯粹一些。
  • 用rufus做将我的U盘做成镜像盘
  • 先将原来做的Win镜像盘通过Windows系统的磁盘管理使用删除指令恢复成一个整体的普通U盘,格式FAT。
  • 再下载Ubuntu24.04.2-desktop-amd64.iso镜像。
  • 直接刻录即可。
  • Ubuntu24.04有一个超级Bug

Nvidia驱动安装

删除原有驱动

sudo apt-get --purge remove nvidia* / sudo apt-get remove --purge nvidia*
sudo apt autoremove
sudo apt update
reboot

安装依赖

sudo apt-get update
 
sudo apt-get install g++
 
sudo apt-get install gcc
 
sudo apt-get install make

禁用干扰

sudo nano /etc/modprobe.d/blacklist.conf

在后面追加如下的行:

blacklist nouveau
options nouveau modeset=0

随后通过update和重启使其生效。

sudo update-initramfs –u
sudo reboot

update-initramfs -u 是 Debian/Ubuntu 等基于 Debian 的 Linux 发行版中用于更新初始化内存文件系统(initramfs) 的命令。

具体含义解析:

  1. update-initramfs:是管理 initramfs 的工具。
    initramfs 是系统启动初期加载到内存中的临时文件系统,包含启动内核所需的关键驱动程序和工具(如磁盘驱动、加密解密工具等),用于协助内核完成早期启动过程(直到挂载真正的根文件系统)。

  2. -u 选项:表示 "update"(更新),即根据当前系统的内核配置和已安装的模块,重新生成并更新 initramfs 镜像。

何时需要使用该命令?

当系统发生以下变化时,需要更新 initramfs 以确保启动正常:

  • 安装/升级了内核相关的驱动程序(如显卡、磁盘控制器驱动);

  • 修改了内核配置文件(如 /etc/modules/etc/initramfs-tools 目录下的配置);

  • 启用了磁盘加密(如 LUKS)或修改了加密配置;

  • 内核版本更新后(部分系统会自动触发,但手动执行可确保生效)。

执行效果:

命令会为当前正在使用的内核(或指定内核)重新生成 initramfs 镜像文件(通常位于 /boot 目录下,命名格式如 initrd.img-<内核版本>),确保下次启动时内核能正确加载所需的驱动和配置。

注意事项:

  • 可能需要 sudo 权限(管理员权限)执行:sudo update-initramfs -u
  • 若要指定更新某个特定内核的 initramfs,可加上 -k 选项,例如:sudo update-initramfs -u -k 5.4.0-91-generic(替换为实际内核版本);
  • 执行后建议运行 update-grub 更新启动引导配置,确保系统使用新生成的 initramfs。

验证生效

lsmod | grep nouveau

输出内容为空,则表示成功禁用。

安装lightdm

sudo apt-get install lightdm

在安装Nvidia驱动前安装lightdm,主要是为了避免显示管理器与Nvidia驱动之间的兼容性问题,具体如下:

  • 解决显示管理工具与Nvidia驱动的不兼容:以Ubuntu 20.04为例,其默认的gnome桌面显示管理工具是gdm3,它可能与Nvidia驱动存在兼容性问题,导致安装驱动后出现黑屏、无法进入系统等情况。而lightdm是轻量级且可扩展的显示管理器,与Nvidia驱动的兼容性更好,能减少此类问题的发生,确保系统在安装Nvidia驱动后能正常显示和运行。
  • 提供更好的显示管理功能lightdm占用系统资源少,启动速度快,还支持多种桌面环境以及Xorg、Wayland等显示服务器,可通过配置插件进行高度定制,为用户提供简洁且可定制的登录界面和显示管理功能,有助于优化使用Nvidia显卡时的系统显示体验。

安装驱动

你当然可以选择.run格式的官网驱动进行安装,但是你很快会发现,它有一个提示:找到另一种替换方法,更方便地进行系统安装。

An alternative method of installing the nvidia driver was detected ...

这里推荐使用与系统匹配的驱动,通过如下命令查看:

sudo ubuntu-drivers devices

注意输出里面含有一个recommended标签的驱动,最好别用,有可能因为版本太高导致意外黑屏。 但是我这个人就是敢为天下先,咱就装这个版本的。

sudo apt-get install nvidia-driver-575

However! 你会发现如下问题:

No device found 问题

  • 那就是在装好驱动后, nvidia-smi 指令的结果居然是 No device found,惊出一身冷汗。
  • 节外生枝:我先尝试了570版本的驱动,发现会有花屏,所以还是要匹配显卡版本575
  • 过程中还会出现我正在使用和驱动已经加载等乱七八糟的提示,但是我都没怎么管。
  • 不过有一个是选择Nvidia专用还是MIT开源的选项,我基本都选专用,因为得知专用驱动效果更好。
  • 结果于事无补,过程中似乎还因为选择575推荐版本导致了重启后光标一直闪烁,不进入页面。
  • 只能通过HDMI线插主板绕过显卡进入界面了。
  • 经过一波三折和一个下午的光阴,我终于搞懂了,24.04版本的Ubuntu只认Open开源版本的驱动,所以我通过Ubuntu自带的软件与更新——>附加驱动选择修改,将专用版本改成了open版本,这下终于可以通过 nvidia-smi 看到我的5090D了。

这是我最后看到的重要参考

另外附上我安装Nvidia驱动时参考的一篇有价值博客,虽然CSDN像个垃圾堆,但是里面还是有好东西的~

安装cuda-toolkit

sudo apt-get install nvidia-cuda-toolkit

好的,下一期为大家踩Anaconda和Pytorch的坑~