简介:TG@luotuoemo
本文由阿里云代理商【聚搜云】撰写
1. 使用nvidia-smi命令
-
安装:nvidia-smi是NVIDIA显卡驱动的一部分,通常与CUDA工具包一起安装。
-
运行:在终端中运行以下命令:
bash
watch -n 2 nvidia-smi这将每2秒刷新一次GPU的状态,包括利用率、内存使用情况等。
2. 使用gpustat
-
安装:
bash
sudo apt install gpustat # 或者作为python库安装 pip install gpustat -
运行:
bash
watch -n 1 -c gpustat --color gpustat -igpustat提供了一个简约的GPU状态显示,适合快速查看。
3. 使用nvtop
-
安装:
bash
sudo apt install nvtop -
运行:
bash
nvtopnvtop提供了一个类似于htop的用户界面,可以直观地查看GPU的使用情况。
4. 使用nvitop
-
安装:
bash
pip install nvitop -
运行:
bash
nvitop -m fullnvitop是一个交互式的GPU性能监控工具,提供了丰富的功能和直观的界面。
5. 使用DCGM(数据中心GPU管理)
- 使用场景:适用于分析集群是否高效地使用GPU,评估训练任务中如何设置Batch Size参数的大小等。
- 查看监控大盘:登录容器服务管理控制台,查看GPU监控大盘数据和指标。
6. 使用Torch Profiler
-
安装:需要先安装torch-tb-profiler。
-
运行:
Python
import torch.autograd.profiler as profiler with profiler.profile( activities=[profiler.ProfilerActivity.CPU, profiler.ProfilerActivity.CUDA], on_trace_ready=torch.profiler.tensorboard_trace_handler('./logs'), ) as prof: train(args)然后启动TensorBoard查看分析轨迹。
7. 使用GPU-Z
- 功能:实时监控GPU温度、时钟速度、内存使用情况、风扇速度等。
8. 使用HWMonitor
- 功能:全面监控GPU和CPU温度、时钟速度、风扇速度和电压。
9. 使用Speccy
- 功能:提供详细的硬件信息和基本的GPU指标监控。
10. 使用MSI AfterBurner
- 功能:实时监控GPU温度、时钟速度、风扇速度和使用百分比。
11. 使用HWiNFO
- 功能:提供详细的硬件信息和实时系统监控。
12. 使用FrameView
- 功能:侦测各类显卡帧率、帧时间、功率和每瓦性能。