NVIDIA-SMI系列命令详解(2)-输出详解

4,284 阅读2分钟

本文为NVIDIA-SMI系列命令详解第二篇-输出详解,主要介绍了nvidia-smi输出结果的每个字段的含义、取值范围和取值示例,并介绍了nvidia-smi命令的附加选项-i、-l和-f的用法。

nvidia-smi 输出详解

nvidia-smi -i 2

此处"-i 2"选项和参数表示显示 GPU index 为 2 的 GPU 卡相关信息,如图:

image

表格详解,从左至右,从上到下,第一行为时间,后面分为两个独立表格

Table I GPU 卡信息详解

项目解释取值范围示例
NVIDIA-SMInvidia-smi版本号470.57.02
Driver VersionNVIDIA驱动版本号470.57.02
CUDA VersionCuda版本号11.4
GPUGPU编号0/0~4/0~8/0~122
NameGPU型号A100 80GB SXM
Persistence-M持续模式的状态(持续模式耗能大,但在新的GPU应用启动时花费时间更少)On/OffOn
Bus-IdGPU总线相关显示 domain: bus: device.function00000000:65:01.0
Disp.ADisplay Active,表示GPU的显示是否初始化On/OffOff
Volatile Uncorr. ECCECC是否开启错误检查和纠正技术,0/disabled,1/enabled0/10
Fan风扇转速,(0%-100%),N/A表示没有风扇0%-100%,N/AN/A
TempGPU温度(GPU温度过高会导致GPU频率下降)49C
Perf从P0(最大性能)到P12(最小性能)P0-P12P0
Pwr:Usage/Cap功耗:当前功率/最大额定功率130W / 165W
Memory-Usage显存使用率:当前显存/最大显存容量
Volatile GPU-UtilGPU使用率0%-100%81%
Compute M.计算模式,0/DEFAULT, 1/EXCLUSIVE_THREAD (DEPRECATED),2/PROHIBITED, 3/EXCLUSIVE_PROCESSDefault/Exclusive_process/ProhibitedDefault
MIG M.切片模式,Enable/Disabled0/1Disabled

Table II 进程信息详解

Processes:进程信息取值范围示例
GPU列GPU编号0~80
GI ID切MIG之后的GPU Instance IDN/A
CI ID切MIG之后的Compute Instance IDN/A
PID占用GPU资源的进程id315733
TypeC : compute = CUDA or OpenCL G:graphics = DirectX or OpenGLC/G/C+GC
Process Name占用GPU资源的进程名称/opt/conda/bin/python
GPU Memory UsageGPU显存使用量16555MiB

nvidia-smi 附加参数

大部分 nvidia-smi 命令选项都支持如下三个附加参数

    -i,   --id=                 指定特定的GPU.
    -f,   --filename=           输出结果到文件,而不是控制台.
    -l,   --loop=               以指定的时间间隔(单位:秒)执行命令直到按Ctrl+C停止.

-i 指定特定 GPU 查看信息

nvidia-smi -i 3

例如,指定 index 为 3 的 GPU 查看信息:

image

-l 动态刷新 nvidia-smi 输出信息

nvidia-smi -i 2 -l

例如,以(默认 5 秒)的时间间隔查询 index 为 2 的 GPU 卡信息

image

nvidia-smi -i 2 -l 1

例如,以 1 秒的时间间隔查询 index 为 2 的 GPU 卡信息

image

-f 输出查询结果到文件

nvdia-smi -i 2 -f status.log

输出 index 为 2 的 GPU 信息到 status.log 文件中

image