这是我参与2022首次更文挑战的第5天,活动详情查看:2022首次更文挑战
基本情况
服务器配置:系统版本Ubuntu 20.04
,含GPU。
前期准备
连接到服务器之后,先更新一下系统的包:
$ sudo apt-get update
然后安装日常开发所需要的包:
$ sudo apt-get install build-essential
深度学习环境配置
1. CUDA
访问 CUDA Toolkit 官网,选择相应的操作系统
、处理器架构
、安装方式
等,根据提示完成CUDA的安装。
以我的服务器为例:
首先选择Linux
系统;
然后,查看服务器的架构。在终端中可以使用以下命令查看架构:
$ uname -m
我的服务器架构是x86_64
;
Distribution
选择Ubuntu
,系统版本选择20.04
;
安装方式任选一种即可,这里我选择runfile(local)
:
$ wget https://developer.download.nvidia.com/compute/cuda/11.6.0/local_installers/cuda_11.6.0_510.39.01_linux.run
$ sudo sh cuda_11.6.0_510.39.01_linux.run
执行安装时,首先输入accept
接受协议;
接下来,会要求选择安装的内容,如图。
这里主要包含两部分,第一个是CUDA的驱动,第二个是它的工具包。对于毛坯服务器而言,两者都是需要安装的。如果是已经配置过环境的服务器,则需要手动取消安装Driver,只安装工具包,否则会因为驱动出现冲突而安装失败。
安装好之后,它会提示你将提示的路径添加到.bashrc
中。
$ vim ~/.bashrc
+ LD_LIBRARY_PATH=/usr/local/cuda-11.6/lib64
保存退出后,bash
一下。
2. Conda
进入 Miniconda 官网,选择正确版本的安装文件,右键复制链接,在终端中使用wget
命令下载。
$ wget https://repo.anaconda.com/miniconda/Miniconda3-py39_4.10.3-Linux-x86_64.sh
下载完成后,使用bash
执行该文件。
安装过程中无脑选yes
完成安装即可。
安装完成后,bash
一下,激活conda环境(base)
。
可以在conda中创建新环境以便管理,如创建一个名为dl
的环境用于深度学习,同时安装pip
:
$ conda create -n dl python=3.9 pip
安装好之后,通过conda activate dl
来激活该环境。
3. Pytorch等
接下来在dl
环境中安装pytorch
等工具。
访问 Pytorch 官网以获取特定版本的Pytorch的安装方式。如:
(dl) $ pip3 install torch==1.10.1+cu113 torchvision==0.11.2+cu113 torchaudio==0.10.1+cu113 -f <https://download.pytorch.org/whl/cu113/torch_stable.html>
至此,一个基本的深度学习环境已经搭建完成。
环境检查
检查CUDA版本和软链接:
$ which nvcc
$ stat cuda
值得注意的是,使用which nvcc
或者nvcc -V
查看的是CUDA的运行API版本,而使用nvidia-smi
查看gpu运行情况时,里面显示的CUDA版本是驱动API版本。一般来说需要驱动版本≥运行版本。