模型训练前后显卡占用对比、多卡训练GPU占用分析【一文读懂】

717 阅读3分钟
  • 🎉 声明: 作为全网 AI 领域 干货最多的博主之一,❤️ 不负光阴不负卿 ❤️
  • 1-0

    本次博文简单记录,多卡训练任务中 ,各个 GPU 资源占用情况 ,内容较为基础,后续有新的心再继续补充

    训练前


      2  A100-PCIE-40GB      Off  | 00000000:39:00.0 Off |                    0 |
    | N/A   26C    P0    37W / 250W |  14568MiB / 40536MiB |      0%      Default |
    |                               |                      |             Disabled |
    +-------------------------------+----------------------+----------------------+
    |   3  A100-PCIE-40GB      Off  | 00000000:3D:00.0 Off |                    0 |
    | N/A   25C    P0    39W / 250W |  11497MiB / 40536MiB |     26%      Default |
    |                               |                      |             Disabled |
    +-------------------------------+----------------------+----------------------+
    |   4  A100-PCIE-40GB      Off  | 00000000:9C:00.0 Off |                    0 |
    | N/A   35C    P0   104W / 250W |  12920MiB / 40536MiB |     32%      Default |
    |                               |                      |             Disabled |
    
    
    
    

    开启训练后


    ------------------------------+----------------------+----------------------+
    |   2  A100-PCIE-40GB      Off  | 00000000:39:00.0 Off |                    0 |
    | N/A   42C    P0   236W / 250W |  35653MiB / 40536MiB |     72%      Default |
    |                               |                      |             Disabled |
    +-------------------------------+----------------------+----------------------+
    |   3  A100-PCIE-40GB      Off  | 00000000:3D:00.0 Off |                    0 |
    | N/A   42C    P0   226W / 250W |  31506MiB / 40536MiB |     42%      Default |
    |                               |                      |             Disabled |
    +-------------------------------+----------------------+----------------------+
    |   4  A100-PCIE-40GB      Off  | 00000000:9C:00.0 Off |                    0 |
    | N/A   47C    P0   214W / 250W |  32905MiB / 40536MiB |     72%      Default |
    |                               |                      |             Disabled |
    +-------------------------------+----------------------+----------------------+
    
    

    GPU 占用如下

    此次训练任务,使用了 2,3,4 三张卡,编号为 2 的卡是主卡,主卡 GPU 占用会多 一个 G

    GPU开启后开启前GPU占用(开启后 - 开启前)
    235653MiB14568MiB21085
    331506MiB11497MiB20009
    432905MiB12920MiB19985

    多卡训练GPU占用分析


    多卡训练任务中,主卡需要承担和其他卡之前的通信,可以看到

    • 实验一:0,1,2,3 四卡训练,0 号主卡多了 3个 通信 进程
    • 实验二:4,5,6 三卡训练,4 号主卡多了 2 个通信 进程
    • 因此,整体来看,多卡训练任务中,主卡会比其他卡 多占用 一个 G 左右的 GPU 资源

    1-5

    因此,有时候,多卡训练就可能会遇到:RuntimeError: CUDA out of memory. Tried to allocate 模型训练 GPU 显存不够报错总结,此时,就可能是 刚好 主卡 资源不够的原因,关于该报错的分析,可以看我下面的这篇文章:


    📙 精选专栏


    计算机视觉领域 八大专栏、不少干货、有兴趣可了解一下

    9-9