本文主要介绍为Ubuntu安装Nvidia TensorRT,演示的环境的硬件为AWS EC2 g4dn机型,它搭载了一颗服务器专用的T4 Tensor Core GPU,这台服务器运行Ubuntu Server 22.04 LTS。
NVIDIA TensorRT是用于高性能深度学习推理的SDK。此SDK包含深度学习推理优化器和运行时环境,可为深度学习推理应用提供低延迟和高吞吐量。TensorRT 以 NVIDIA 的并行编程模型 CUDA 为基础构建而成,在推理过程中,基于 TensorRT 的应用程序的执行速度可比 CPU 平台的速度快 40 倍。借助 TensorRT,您可以优化在所有主要框架中训练的神经网络模型,精确校正低精度,并最终将模型部署到超大规模数据中心、嵌入式或汽车产品平台中。
例如tensorflow可以使用TensorRT来降低推理时的延迟并提升吞吐量。
机器学习环境搭建 安装CUDA我们介绍了Nvidia的驱动安装, 接下来我们补充安装TensorRT。
安装TensorRT
参考NVIDIA Deep Learning TensorRT Documentation ,可以在NVIDIA TensorRT 10.x Download找到各种版本下载链接。
我的系统是Ubuntu 22.04,所以选择TensorRT 8.6 GA for Ubuntu 22.04 and CUDA 12.0 and 12.1 DEB local repo Package
wget https://developer.download.nvidia.cn/compute/machine-learning/tensorrt/10.0.1/local_repo/nv-tensorrt-local-repo-ubuntu2204-10.0.1-cuda-12.4_1.0-1_amd64.deb
sudo dpkg -i nv-tensorrt-local-repo-ubuntu2204-10.0.1-cuda-12.4_1.0-1_amd64.deb
sudo cp /var/nv-tensorrt-local-repo-ubuntu2204-10.0.1-cuda-12.4/nv-tensorrt-local-2C63AABB-keyring.gpg /usr/share/keyrings/
sudo apt-get update
按照Debian Installation进行安装
sudo apt update
sudo apt install tensorrt
# If using Python 3.x:
sudo apt install python3-libnvinfer-dev
备注: TensorRT安装时,需要匹配对应的CUDA版本,目前(2024/05)TensorRT最高只能匹配到CUDA 12.4。