阿里云国际站代理商:如何通过监控分析GPU利用率?

简介:TG@luotuoemo

本文由阿里云代理商【聚搜云】撰写

1. 使用nvidia-smi命令

  • 安装:nvidia-smi是NVIDIA显卡驱动的一部分,通常与CUDA工具包一起安装。

  • 运行:在终端中运行以下命令:

    bash

    watch -n 2 nvidia-smi
    

    这将每2秒刷新一次GPU的状态,包括利用率、内存使用情况等。

2. 使用gpustat

  • 安装

    bash

    sudo apt install gpustat
    # 或者作为python库安装
    pip install gpustat
    
  • 运行

    bash

    watch -n 1 -c gpustat --color
    gpustat -i
    

    gpustat提供了一个简约的GPU状态显示,适合快速查看。

3. 使用nvtop

  • 安装

    bash

    sudo apt install nvtop
    
  • 运行

    bash

    nvtop
    

    nvtop提供了一个类似于htop的用户界面,可以直观地查看GPU的使用情况。

4. 使用nvitop

  • 安装

    bash

    pip install nvitop
    
  • 运行

    bash

    nvitop -m full
    

    nvitop是一个交互式的GPU性能监控工具,提供了丰富的功能和直观的界面。

5. 使用DCGM(数据中心GPU管理)

  • 使用场景:适用于分析集群是否高效地使用GPU,评估训练任务中如何设置Batch Size参数的大小等。
  • 查看监控大盘:登录容器服务管理控制台,查看GPU监控大盘数据和指标。

6. 使用Torch Profiler

  • 安装:需要先安装torch-tb-profiler。

  • 运行

    Python

    import torch.autograd.profiler as profiler
    
    with profiler.profile(
      activities=[profiler.ProfilerActivity.CPU, profiler.ProfilerActivity.CUDA],
      on_trace_ready=torch.profiler.tensorboard_trace_handler('./logs'),
    ) as prof:
      train(args)
    

    然后启动TensorBoard查看分析轨迹。

7. 使用GPU-Z

  • 功能:实时监控GPU温度、时钟速度、内存使用情况、风扇速度等。

8. 使用HWMonitor

  • 功能:全面监控GPU和CPU温度、时钟速度、风扇速度和电压。

9. 使用Speccy

  • 功能:提供详细的硬件信息和基本的GPU指标监控。

10. 使用MSI AfterBurner

  • 功能:实时监控GPU温度、时钟速度、风扇速度和使用百分比。

11. 使用HWiNFO

  • 功能:提供详细的硬件信息和实时系统监控。

12. 使用FrameView

  • 功能:侦测各类显卡帧率、帧时间、功率和每瓦性能。