【AI基础】K8S环境使用GPU--裸机环境(一)

144 阅读2分钟

本文以常见的NVIDIA GPU为例,介绍在裸机、Docker和Kubernetes等不同的环境下如何使用和管理GPU

一、概述

1.1 裸机环境

安装对应的GPU Driver(GPU驱动),以及CUDA Toolkit

1.2 Docker环境

需额外安装nvidia-container-toolkit,配置docker使用nvidia-runtime

1.3 Kubernetes环境

需额外安装对应的device-plugin,使得kubelet能感知到节点上的GPU设备

备注:一般在k8s环境,直接使用gpu-operator方案安装

 二、裸机环境

裸机中使用GPU需安装

  • GPU Driver
  • CUDA Toolkit

两者的关系,如NVIDIA官网所示

image.png

2.1 安装工具范围

2.1.1 GPU Driver

GPU Driver包括GPU驱动 和 CUDA驱动

2.1.2 CUDA Toolkit

CUDA Toolkit则包含CUDA Runtime

2.2 安装GPU驱动过程

2.2.1 手动搜索驱动程序

进入NVIDIA官网,手动搜索驱动程序

www.nvidia.cn/geforce/dri…

image.png

2.2.2 驱动程序搜索结果

image.png

2.2.3 选择下载驱动程序

image.png

2.2.4 驱动支持产品列表

image.png

2.2.5 驱动程序启动下载

image.png

注册账号后下载驱动

image.png

2.2.6 驱动安装

下载得到一个.run文件,例如 NVIDIA-Linux-x86_64-550.54.14.run 直接sh方式运行该文件

sh NVIDIA-Linux-x86_64-550.54.14.run

转存失败,建议直接上传图片文件

进入图形化界面,一路选择yes/ok

2.2.7 检查是否安装成功

nvidia-smi
nvida-smi

转存失败,建议直接上传图片文件

展示显卡信息则安装成功

至此,安装好GPU驱动,系统也能正常识别到GPU

2.2.8 CUDA版本

CUDA版本表示当前驱动最大支持的CUDA版本

2.3 安装CUDA Toolkit

深度学习程序,一般依赖 CUDA 环境,需在机器上安装 CUDA Toolkit

2.3.1 下载NVIDIA CUDA Toolkit

image.png

image.png

2.3.2 执行安装命令

# 下载安装文件 
wget https://developer.download.nvidia.com/compute/cuda/12.6.2/local_installers/cuda_12.6.2_560.35.03_linux.run

#开始安装
sudo sh cuda_12.6.2_560.35.03_linux.run

转存失败,建议直接上传图片文件

注意:之前安装过驱动,不用再安装,仅安装CUDA Toolkit相关组件

2.3.3 安装完成后输出

2.3.4 配置PATH

# 添加 CUDA 12.2 到 PATH
export PATH=/usr/local/cuda-12.2/bin:$PATH

# 添加 CUDA 12.2 的 lib64 到 LD_LIBRARY_PATH
export LD_LIBRARY_PATH=/usr/local/cuda-12.2/lib64:$LD_LIBRARY_PATH

转存失败,建议直接上传图片文件

2.3.5 检查是否安装成功

nvcc -V
nvcc -V

转存失败,建议直接上传图片文件

2.4 测试调用情况

用Pytorch程序测试

可使用简单的Pytorch程序检查GPU和CUDA是否正常

结语

至此,我们已完成裸机环境安装GPU驱动和CUDA Toolkit的过程,下篇文章将介绍如何在Docker环境安装及使用GPU,为创建AI应用做好准备~