给我一台新的服务器,我会怎么安排 CUDA

1,757 阅读5分钟

我正在参与掘金创作者训练营第4期,点击了解活动详情,一起学习吧!

  • 👋 只有实战、不讲理论、一文读懂 👋
  • 🎉 声明: 作为全网 AI 领域 干货最多的博主之一,❤️ 不负光阴不负卿 ❤️
  • 1-0

    深度学习环境搭建过程中,初期阶段,相信大家都会遇到,动不动 TensorFlow 或者 Pytorch 库与Cuda、或者Cudnn 版本不匹配的问题;


    因此很多时候,在一台服务器中安装多个Cuda逐步成为了各位搬砖大佬们的必然选择


    本文为大家揭秘一台全新服务器、我会怎样安排 Cuda、使得我的学习生产更为高效


    📔 服务器是团队或者项目组的,因此cuda还是自己的好用!!!


    第一部分为大家展示:Ubuntu系统 Cuda10.0 安装过程

    • 安装系统 :Ubuntu 18.04.5

    🟧 1 cuda官网下载地址

    cat /proc/version (Linux查看当前操作系统版本信息)
    

    1

    🟨 2 安装

    # 先对安装包《cuda_10.0.130_410.48_linux.run》的属性进行修改为可执行;
    
    chmod 755 cuda_10.0.130_410.48_linux.run
    
    # 不要使用 sudo 进行安装
    sh cuda_10.0.130_410.48_linux.run
    

    过程如下,按空格读完协议,进行如下图的操作:

    备注: 这里没有安装新的驱动,是因为:

    • 1: root 用户 安装的 驱动 能够 支持当前 CUDA10.0的运行;
    • 2: 驱动的更新安装,需要 root 权限 (也就是说 一台 Linux 服务器 只能 安装 一个英伟达内核驱动),团队的服务器,我没有权限去更新服务器的显卡驱动;
    • 3:如果服务器本身 驱动版本 高 能够 同时 支持 CUDA10 和 CUDA9 ,那么我们这里安装的 CUDA10.0, 后面运行程序便是可行的;

    2

    🟦 3:环境变量的配置

    cd /home/zhijian
    vim .bashrc
    
    # 在最下方添加刚刚安装cuda的路径:
    ---
    export PATH="/home/zhijian/usr/local/cuda10/bin:$PATH"
    export LD_LIBRARY_PATH="/home/zhijian/usr/local/cuda10/lib64:$LD_LIBRARY_PATH"
    ---
    
    # 保存之后,使配置生效:  
    source .bashrc   
    
    • 命令行输入 nvcc -V 查看cuda版本,效果如下:
    nvcc: NVIDIA (R) Cuda compiler driver
    Copyright (c) 2005-2018 NVIDIA Corporation
    Built on Sat_Aug_25_21:08:01_CDT_2018
    Cuda compilation tools, release 10.0, V10.0.130
    

    说明 cuda10.0此次安装OK,已经不再使用服务器公共的cuda了


    📕 配置自己的cudnn, 这里配置的cudnn版本为:7.6.0


    TensorFlow1.2~2.1各GPU版本与CUDA对应版本|简记

    🔴 1 官网下载

    这个下载需要邮箱注册和登录,容易忘记密码,就很烦有没有。。。

    2

    🔵 2 解压 cudnn

    从Nvidia官网上下载下来的cudnn for linux的文件格式是.solitairetheme8,想要解压的话需要先转成tgz格式再解压(这个操作我也被惊到了):

    cp cudnn-10.0-linux-x64-v7.6.0.64.solitairetheme8 cudnn-10.0-linux-x64-v7.6.0.64.tgz
    
    tar -zxvf cudnn-10.0-linux-x64-v7.6.0.64.tgz
    

    🟣 3 安装配置【替换即可】

     cp cuda/include/cudnn.h /home/zhijian/usr/local/cuda10/include/
    
     cp cuda/lib64/libcudnn.s* /home/zhijian/usr/local/cuda10/lib64/
    
     chmod 755 /home/zhijian/usr/local/cuda10/include/cudnn.h
     
    # 查看cudnn版本 
     cat /home/zhijian/usr/local/cuda10/include/cudnn.h | grep CUDNN_MAJOR -A 2
    
    • 我得到的正确输出如下:

    3


    📙 友情提示


    • 我上面安装的 cuda10.0 和 cudnn 7.6.0 是因为代码训练TensorFlow-GPU 版本为2.0,各位需要根据自己的需求情况来安装相应的 cuda 和 cudnn版本,版本不匹配有时候会导致很多麻烦呐...

    • TensorFlow2.0-GPU 训练走起...

    • 🍊 # 一文读懂 tensorflow-GPU 安装、测试

    ---核心干货知识点上线---


    📙 一台 Linux 服务器, cuda9 和 cuda 10 可以共存吗?


    这样的情况是可以共存的:

    比如:已经安装了高版本的 Cuda 和 对应高版本内核, 而 这个驱动 同时也支持 低版本的CUDA运行,这种情况通过 修改 配置 文件的方式 ,可以 自由进行 Cuda 的切换。

    但是如果系统先安装的 cuda9 和对应驱动, 然后你想要给当前 非 Root 用户安装的 cuda10 ,因为 没有 root权限, 无法 更新 驱动 ,此时 便不行。


    📙 因此,给我一台新的服务器,我会怎么安排 Cuda?


    • Root 权限 用户,给 服务器安装尽可能 高版本的 驱动 内核,例如 Cuda 11
    • 普通用户,根据自己的项目需求,可以安装自己的 Cuda

    系统默认的Cuda 安装位置 和 配置如下:

    export PATH=/usr/local/cuda-10.0/bin:$PATH  
    export LD_LIBRARY_PATH=/usr/local/cuda-10.0/lib64:$LD_LIBRARY_PATH
    export CUDA_HOME=/usr/local/cuda
    

    普通用户,配置自己的Cuda 安装目录,可以配置多个,但是 同一时刻,只能使用其中一个版本 我这里是 cuda10,根据自己的需求,可以配置为 cuda9 cuda8 对应的安装目录

    • 比如说我只配置了一个 cuda , 那么我注释掉配置,便会使用 系统默认的Cuda;
    #export PATH="/home/moli/usr/local/cuda10/bin:$PATH" 
    #export LD_LIBRARY_PATH="/home/moli/usr/local/cuda10/lib64:$LD_LIBRARY_PATH"
    
    • 配置文件为,每个用户根目录下的 .bashrc 文件;
    # 配置操作如下:
    cd ~ 
    vim .bashrc
    
    # 使配置生效即可
    source .bashrc
    

    📙 平时如何进行 Cuda 的版本切换


    1. 当前而言,给自己用户安装一个 Cuda10.X 或者 Cuda11.X 已经基本够用
    2. 如果遇到不同的项目确实只能适配 不同版本的Cuda ,这时,就需要自己安装多个 Cuda
    3. 需要掌握对 ~/.bashrc 进行 编辑,配置 不同版本 Cuda
    4. 如下所示,对于深度学习Python项目,每次切换版本,只需要打开自己当前需要的Cuda配置即可
    5. 如果是C++项目,则在 CMakeLists.txt 中进行 Cuda配置即可
    
    # >>> 服务器 root 用户 安装的Cuda10.0
    #export PATH=/usr/local/cuda-10.0/bin:$PATH
    #export LD_LIBRARY_PATH=/usr/local/cuda-10.0/lib64:$LD_LIBRARY_PATH
    #export CUDA_HOME=/usr/local/cuda
    
    
    # >>> 我自己安装的Cuda 11 add by ml Cuda 11 path
    export PATH=/home/ml/usr/mycuda/bin:$PATH
    export LD_LIBRARY_PATH=/home/ml/usr/mycuda/lib64:$LD_LIBRARY_PATH
    export CUDA_HOME=/home/ml/usr/mycuda
    
    # 如果有必要,你还可以配置一个 Cuda9、Cuda8
    
    ...
    

    🚀🚀 墨理学AI


  • 🎉 作为全网 AI 领域 干货最多的博主之一,❤️ 不负光阴不负卿 ❤️
  • ❤️ 如果文章对你有帮助、点赞、评论鼓励博主的每一分认真创作
  • 快乐学AI 、深度学习环境搭建 : 一文读懂

    765_blue.jpg