本文为NVIDIA-SMI系列命令详解第二篇-输出详解,主要介绍了nvidia-smi输出结果的每个字段的含义、取值范围和取值示例,并介绍了nvidia-smi命令的附加选项-i、-l和-f的用法。
nvidia-smi 输出详解
nvidia-smi -i 2
此处"-i 2"选项和参数表示显示 GPU index 为 2 的 GPU 卡相关信息,如图:
表格详解,从左至右,从上到下,第一行为时间,后面分为两个独立表格
Table I GPU 卡信息详解
项目 | 解释 | 取值范围 | 示例 |
---|---|---|---|
NVIDIA-SMI | nvidia-smi版本号 | 470.57.02 | |
Driver Version | NVIDIA驱动版本号 | 470.57.02 | |
CUDA Version | Cuda版本号 | 11.4 | |
GPU | GPU编号 | 0/0~4/0~8/0~12 | 2 |
Name | GPU型号 | A100 80GB SXM | |
Persistence-M | 持续模式的状态(持续模式耗能大,但在新的GPU应用启动时花费时间更少) | On/Off | On |
Bus-Id | GPU总线相关显示 domain: bus: device.function | 00000000:65:01.0 | |
Disp.A | Display Active,表示GPU的显示是否初始化 | On/Off | Off |
Volatile Uncorr. ECC | ECC是否开启错误检查和纠正技术,0/disabled,1/enabled | 0/1 | 0 |
Fan | 风扇转速,(0%-100%),N/A表示没有风扇 | 0%-100%,N/A | N/A |
Temp | GPU温度(GPU温度过高会导致GPU频率下降) | 49C | |
Perf | 从P0(最大性能)到P12(最小性能) | P0-P12 | P0 |
Pwr:Usage/Cap | 功耗:当前功率/最大额定功率 | 130W / 165W | |
Memory-Usage | 显存使用率:当前显存/最大显存容量 | ||
Volatile GPU-Util | GPU使用率 | 0%-100% | 81% |
Compute M. | 计算模式,0/DEFAULT, 1/EXCLUSIVE_THREAD (DEPRECATED),2/PROHIBITED, 3/EXCLUSIVE_PROCESS | Default/Exclusive_process/Prohibited | Default |
MIG M. | 切片模式,Enable/Disabled | 0/1 | Disabled |
Table II 进程信息详解
Processes: | 进程信息 | 取值范围 | 示例 |
---|---|---|---|
GPU列 | GPU编号 | 0~8 | 0 |
GI ID | 切MIG之后的GPU Instance ID | N/A | |
CI ID | 切MIG之后的Compute Instance ID | N/A | |
PID | 占用GPU资源的进程id | 315733 | |
Type | C : compute = CUDA or OpenCL G:graphics = DirectX or OpenGL | C/G/C+G | C |
Process Name | 占用GPU资源的进程名称 | /opt/conda/bin/python | |
GPU Memory Usage | GPU显存使用量 | 16555MiB |
nvidia-smi 附加参数
大部分 nvidia-smi 命令选项都支持如下三个附加参数
-i, --id= 指定特定的GPU.
-f, --filename= 输出结果到文件,而不是控制台.
-l, --loop= 以指定的时间间隔(单位:秒)执行命令直到按Ctrl+C停止.
-i 指定特定 GPU 查看信息
nvidia-smi -i 3
例如,指定 index 为 3 的 GPU 查看信息:
-l 动态刷新 nvidia-smi 输出信息
nvidia-smi -i 2 -l
例如,以(默认 5 秒)的时间间隔查询 index 为 2 的 GPU 卡信息
nvidia-smi -i 2 -l 1
例如,以 1 秒的时间间隔查询 index 为 2 的 GPU 卡信息
-f 输出查询结果到文件
nvdia-smi -i 2 -f status.log
输出 index 为 2 的 GPU 信息到 status.log 文件中