一、查看显卡信息
在终端输入命令lspci -vnn | grep VGA -A 12查看显卡信息,输出如下图所示:
01:00.0 VGA compatible controller [0300]: NVIDIA Corporation GP102 [GeForce GTX 1080 Ti] [10de:1b06] (rev a1) (prog-if 00 [VGA controller])
Subsystem: NVIDIA Corporation Device [10de:120f]
Flags: bus master, fast devsel, latency 0, IRQ 127
Memory at a2000000 (32-bit, non-prefetchable) [size=16M]
Memory at 90000000 (64-bit, prefetchable) [size=256M]
Memory at a0000000 (64-bit, prefetchable) [size=32M]
I/O ports at 4000 [size=128]
Expansion ROM at 000c0000 [disabled] [size=128K]
Capabilities: <access denied>
Kernel driver in use: nouveau
Kernel modules: nvidiafb, nouveau
01:00.1 Audio device [0403]: NVIDIA Corporation GP102 HDMI Audio Controller [10de:10ef] (rev a1)
二、安装CUDA
下载CUDA包
根据tensorflow选择相应CUDA版本,如tensorflow-gpu==1.13.2,对应表格知道需要的CUDA版本是10.0。
去 英伟达官网 找到该页面如图所示:
进入如下页面,根据系统选择相应CUDA版本,比如ubuntu16.04可以选择图示CUDA安装包下载
安装CUDA
下载好安装包之后,将安装包拷贝到服务器的某个目录下,在安装包所在的目录下执行
sudo sh cuda_10.0.130_410.48_linux.run
如果你是其他版本的版本替换一下即可。
运行上述命令之后会出现如图所示的提示:
按enter键一行一行阅读,按ctrl+c直接跳到最后:
根据提示如红框所示输入accept,点击回车进行安装。 等待安装的第一步出现是否安装nvidia driver 选择no
接下来所有的步骤都选择yes,然后按enter一路安装,显示安装完成后输入nvcc -V查看安装的cuda版本。
如果提示:
不要慌,切换到/usr/local/目录下查看是否有cuda目录,如果有的话只需要添加环境变量就可以了,执行vim ~/.bashrc,在文件中添加
export PATH=$PATH:/usr/local/cuda/bin
export LD_LIBRARY_PATH=/usr/local/cuda/bin/lib64:$LD_LIBRARY_PATH
保存退出。如图所示:
添加好后,执行source ~/.bashrc完成配置,再次执行nvcc -V,会看到cuda的安装版本信息:
三、安装cuDNN
下载cuDNN安装包
进入cuDNN官方下载页,如图所示
根据tensorflow对应cuda版本及cudnn版本信息,我们选择对应的cudnn版本安装包进行下载。
安装cuDNN
将下载好的3个安装包,拷贝到服务器的相应目录,执行以下3个命令:(根据自己的版本替换)
sudo dpkg -i libcudnn7_7.6.5.32-1+cuda10.0_amd64.deb
sudo dpkg -i libcudnn7-dev_7.6.5.32-1+cuda10.0_amd64.deb
sudo dpkg -i libcudnn7-doc_7.6.5.32-1+cuda10.0_amd64.deb
四、安装NVIDIA驱动
下载对应的驱动版本
找到英伟达的驱动官网,如图所示
根据我们的显卡信息选择搜索,结果如图:
下载驱动程序,将下载好的驱动程序拷贝到服务器对应的目录,进行安装。
安装驱动
1、查看自带驱动状态
安装之前先要查看ubuntu自带的驱动是否是运行状态lsmod | grep nouveau
如果有输出如图,需要我们手动禁用nouveau
2、修改配置文件
执行sudo vim /etc/modprobe.d/blacklist.conf
打开文件在文件的最后插入
blacklist nouveau
options nouveau modeset=0
如图所示保存退出
执行以下命令生效
sudo update-initramfs -u
3、重启机器
sudo reboot
等到服务器重新启动之后,再重新连接。
4、再次查看自带驱动状态
lsmod | grep nouveau
看到无任何输出之后,我们进行下一步的nvidia驱动安装。
5、安装nvidia驱动
按顺序执行如下命令
sudo chmod a+x NVIDIA-Linux-x86_64-440.64.run
sudo ./NVIDIA-Linux-x86_64-440.64.run
一路ok + enter完成安装。
6.输入nvidia-smi查看gpu信息
至此完成所有配置及安装,大功告成!
提示
如果运行时抱错OSError: ./libcudart.so: cannot open shared object file: No such file or directory
可以运行sudo ldconfig /usr/local/cuda/lib64尝试修复。