毛坯服务器拓荒：从零开始配置 Linux 深度学习环境毛坯服务器安装 CUDA 、Miniconda 和 Pytorch

这是我参与2022首次更文挑战的第5天，活动详情查看：2022首次更文挑战

基本情况

服务器配置：系统版本Ubuntu 20.04，含GPU。

前期准备

连接到服务器之后，先更新一下系统的包：

$ sudo apt-get update

然后安装日常开发所需要的包：

$ sudo apt-get install build-essential

深度学习环境配置

1. CUDA

访问 CUDA Toolkit 官网，选择相应的操作系统、处理器架构、安装方式等，根据提示完成CUDA的安装。

以我的服务器为例：

首先选择Linux系统；

然后，查看服务器的架构。在终端中可以使用以下命令查看架构：

$ uname -m

我的服务器架构是x86_64；

Distribution选择Ubuntu，系统版本选择20.04；

安装方式任选一种即可，这里我选择runfile(local)：

$ wget https://developer.download.nvidia.com/compute/cuda/11.6.0/local_installers/cuda_11.6.0_510.39.01_linux.run
$ sudo sh cuda_11.6.0_510.39.01_linux.run

执行安装时，首先输入accept接受协议；

接下来，会要求选择安装的内容，如图。

这里主要包含两部分，第一个是CUDA的驱动，第二个是它的工具包。对于毛坯服务器而言，两者都是需要安装的。如果是已经配置过环境的服务器，则需要手动取消安装Driver，只安装工具包，否则会因为驱动出现冲突而安装失败。

安装好之后，它会提示你将提示的路径添加到.bashrc中。

$ vim ~/.bashrc
+ LD_LIBRARY_PATH=/usr/local/cuda-11.6/lib64

保存退出后，bash一下。

2. Conda

进入 Miniconda 官网，选择正确版本的安装文件，右键复制链接，在终端中使用wget命令下载。

$ wget https://repo.anaconda.com/miniconda/Miniconda3-py39_4.10.3-Linux-x86_64.sh

下载完成后，使用bash执行该文件。

安装过程中无脑选yes完成安装即可。

安装完成后，bash一下，激活conda环境(base)。

可以在conda中创建新环境以便管理，如创建一个名为dl的环境用于深度学习，同时安装pip：

$ conda create -n dl python=3.9 pip

安装好之后，通过conda activate dl来激活该环境。

3. Pytorch等

接下来在dl环境中安装pytorch等工具。

访问 Pytorch 官网以获取特定版本的Pytorch的安装方式。如：

(dl) $ pip3 install torch==1.10.1+cu113 torchvision==0.11.2+cu113 torchaudio==0.10.1+cu113 -f <https://download.pytorch.org/whl/cu113/torch_stable.html>

至此，一个基本的深度学习环境已经搭建完成。

环境检查

检查CUDA版本和软链接：

$ which nvcc
$ stat cuda

值得注意的是，使用which nvcc或者nvcc -V查看的是CUDA的运行API版本，而使用nvidia-smi查看gpu运行情况时，里面显示的CUDA版本是驱动API版本。一般来说需要驱动版本≥运行版本。