毛坯服务器拓荒:从零开始配置 Linux 深度学习环境

682 阅读1分钟

这是我参与2022首次更文挑战的第5天,活动详情查看:2022首次更文挑战

基本情况

服务器配置:系统版本Ubuntu 20.04,含GPU。

前期准备

连接到服务器之后,先更新一下系统的包:

$ sudo apt-get update

然后安装日常开发所需要的包:

$ sudo apt-get install build-essential

深度学习环境配置

1. CUDA

访问 CUDA Toolkit 官网,选择相应的操作系统处理器架构安装方式等,根据提示完成CUDA的安装。

以我的服务器为例:

首先选择Linux系统;

然后,查看服务器的架构。在终端中可以使用以下命令查看架构:

$ uname -m

我的服务器架构是x86_64

Distribution选择Ubuntu,系统版本选择20.04

安装方式任选一种即可,这里我选择runfile(local)

$ wget https://developer.download.nvidia.com/compute/cuda/11.6.0/local_installers/cuda_11.6.0_510.39.01_linux.run
$ sudo sh cuda_11.6.0_510.39.01_linux.run

执行安装时,首先输入accept接受协议;

接下来,会要求选择安装的内容,如图。

0.png

这里主要包含两部分,第一个是CUDA的驱动,第二个是它的工具包。对于毛坯服务器而言,两者都是需要安装的。如果是已经配置过环境的服务器,则需要手动取消安装Driver,只安装工具包,否则会因为驱动出现冲突而安装失败。

安装好之后,它会提示你将提示的路径添加到.bashrc中。

$ vim ~/.bashrc
+ LD_LIBRARY_PATH=/usr/local/cuda-11.6/lib64

保存退出后,bash一下。

2. Conda

进入 Miniconda 官网,选择正确版本的安装文件,右键复制链接,在终端中使用wget命令下载。

$ wget https://repo.anaconda.com/miniconda/Miniconda3-py39_4.10.3-Linux-x86_64.sh

下载完成后,使用bash执行该文件。

安装过程中无脑选yes完成安装即可。

安装完成后,bash一下,激活conda环境(base)

可以在conda中创建新环境以便管理,如创建一个名为dl的环境用于深度学习,同时安装pip

$ conda create -n dl python=3.9 pip

安装好之后,通过conda activate dl来激活该环境。

3. Pytorch等

接下来在dl环境中安装pytorch等工具。

访问 Pytorch 官网以获取特定版本的Pytorch的安装方式。如:

(dl) $ pip3 install torch==1.10.1+cu113 torchvision==0.11.2+cu113 torchaudio==0.10.1+cu113 -f <https://download.pytorch.org/whl/cu113/torch_stable.html>

至此,一个基本的深度学习环境已经搭建完成。

环境检查

检查CUDA版本和软链接:

$ which nvcc
$ stat cuda

值得注意的是,使用which nvcc或者nvcc -V查看的是CUDA的运行API版本,而使用nvidia-smi查看gpu运行情况时,里面显示的CUDA版本是驱动API版本。一般来说需要驱动版本≥运行版本