本文以常见的NVIDIA GPU为例,介绍在裸机、Docker和Kubernetes等不同的环境下如何使用和管理GPU
一、概述
1.1 裸机环境
安装对应的GPU Driver(GPU驱动),以及CUDA Toolkit
1.2 Docker环境
需额外安装nvidia-container-toolkit,配置docker使用nvidia-runtime
1.3 Kubernetes环境
需额外安装对应的device-plugin,使得kubelet能感知到节点上的GPU设备
备注:一般在k8s环境,直接使用gpu-operator方案安装
二、裸机环境
裸机中使用GPU需安装
- GPU Driver
- CUDA Toolkit
两者的关系,如NVIDIA官网所示
2.1 安装工具范围
2.1.1 GPU Driver
GPU Driver包括GPU驱动 和 CUDA驱动
2.1.2 CUDA Toolkit
CUDA Toolkit则包含CUDA Runtime
2.2 安装GPU驱动过程
2.2.1 手动搜索驱动程序
进入NVIDIA官网,手动搜索驱动程序
2.2.2 驱动程序搜索结果
2.2.3 选择下载驱动程序
2.2.4 驱动支持产品列表
2.2.5 驱动程序启动下载
注册账号后下载驱动
2.2.6 驱动安装
下载得到一个.run文件,例如 NVIDIA-Linux-x86_64-550.54.14.run
直接sh方式运行该文件
sh NVIDIA-Linux-x86_64-550.54.14.run
进入图形化界面,一路选择yes/ok
2.2.7 检查是否安装成功
nvidia-smi
nvida-smi
展示显卡信息则安装成功
至此,安装好GPU驱动,系统也能正常识别到GPU
2.2.8 CUDA版本
CUDA版本表示当前驱动最大支持的CUDA版本
2.3 安装CUDA Toolkit
深度学习程序,一般依赖 CUDA 环境,需在机器上安装 CUDA Toolkit
2.3.1 下载NVIDIA CUDA Toolkit
2.3.2 执行安装命令
# 下载安装文件
wget https://developer.download.nvidia.com/compute/cuda/12.6.2/local_installers/cuda_12.6.2_560.35.03_linux.run
#开始安装
sudo sh cuda_12.6.2_560.35.03_linux.run
注意:之前安装过驱动,不用再安装,仅安装CUDA Toolkit相关组件
2.3.3 安装完成后输出
2.3.4 配置PATH
# 添加 CUDA 12.2 到 PATH
export PATH=/usr/local/cuda-12.2/bin:$PATH
# 添加 CUDA 12.2 的 lib64 到 LD_LIBRARY_PATH
export LD_LIBRARY_PATH=/usr/local/cuda-12.2/lib64:$LD_LIBRARY_PATH
2.3.5 检查是否安装成功
nvcc -V
nvcc -V
2.4 测试调用情况
用Pytorch程序测试
可使用简单的Pytorch程序检查GPU和CUDA是否正常
结语
至此,我们已完成裸机环境安装GPU驱动和CUDA Toolkit的过程,下篇文章将介绍如何在Docker环境安装及使用GPU,为创建AI应用做好准备~