pytorch 在 C++ 中加载 TORCHSCRIPT 模型

1,580 阅读8分钟

PyTorch 的主要编程接口是 Python 语言。虽然对于许多需要动态和快速迭代的场景来说,Python 是一种合适且首选的语言,但同样有很多情况下,Python 的这些属性恰恰是不利的。后者经常应用的一个环境是生产环境——要求低延迟和严格部署。对于生产场景,C++ 通常是首选语言,即使只是将其绑定到另一种语言,如 Java、Rust 或 Go。以下内容将概述如何利用 PyTorch 提供C++ 库加载现有Python序列化模型,完全不依赖于Python的在C++环境中执行。

第 1 步:将 PyTorch 模型转换为 Torch 脚本

PyTorch 模型从 Python 迁移到 C++ 的媒介是由Torch Script实现的,Torch Script是 PyTorch 模型的一种中间表示,可以被 Torch Script 编译器理解、编译和序列化。如果是从 vanilla “eager” API 编写的现有 PyTorch 模型开始,则必须首先将模型转换为 Torch 脚本。在下面讨论的最常见的情况下,这只需要很少的工作。如果已经有一个 Torch 脚本模块,可以跳到本教程的下一部分。

将 PyTorch 模型转换为 Torch 脚本有两种方法。第一种称为跟踪,这是一种通过使用示例输入对其进行一次评估来捕获模型结构的机制,并记录这些输入在模型中的流动。这适用于限制使用控制流的模型(即模型中不存在 if)。第二种方法是向模型添加显式注释,通知 Torch 脚本编译器它可以直接解析和编译模型代码,受 Torch 脚本语言施加的约束。

提示:

可以在官方的Torch 脚本参考中找到这两种方法的完整文档,以及使用的进一步指导。

1.1 通过跟踪转换为 Torch 脚本

要通过跟踪将 PyTorch 模型转换为 Torch 脚本,必须将模型实例连同示例输入一起传递给torch.jit.trace 函数。这将生成一个torch.jit.ScriptModule对象,其中包含嵌入模块forward方法中的模型评估跟踪:

import torch
import torchvision

# An instance of your model.
model = torchvision.models.resnet18()

# An example input you would normally provide to your model's forward() method.
example = torch.rand(1, 3, 224, 224)

# Use torch.jit.trace to generate a torch.jit.ScriptModule via tracing.
# 把模型 model 和 样例数据 example 传入 torch.jit.trace 
traced_script_module = torch.jit.trace(model, example)

和常规 PyTorch 模块一样,现在可以对跟踪后的ScriptModule进行相同的推理预测:

In[1]: output = traced_script_module(torch.ones(1, 3, 224, 224))
In[2]: output[0, :5]
Out[2]: tensor([-0.2698, -0.0381,  0.4023, -0.3010, -0.0448], grad_fn=<SliceBackward>)

1.2 通过注释转换为 Torch 脚本

在某些情况下,如果模型采用了特定形式的控制流,可以直接在 Torch 脚本中编写模型并相应地注释模型。例如,假设有以下 vanilla Pytorch 模型:

import torch

class MyModule(torch.nn.Module):
    def __init__(self, N, M):
        super(MyModule, self).__init__()
        self.weight = torch.nn.Parameter(torch.rand(N, M))

    def forward(self, input):
        if input.sum() > 0:    ### <<<<<======这里有if 判断
          output = self.weight.mv(input)
        else:
          output = self.weight + input
        return output

因为模块的forward方法使用依赖于输入的控制流,所以不适合追踪。 为了将模块转换为ScriptModule,需要torch.jit.script编译模块,如下所示:

class MyModule(torch.nn.Module):
    def __init__(self, N, M):
        super(MyModule, self).__init__()
        self.weight = torch.nn.Parameter(torch.rand(N, M))

    def forward(self, input):
        if input.sum() > 0:
          output = self.weight.mv(input)
        else:
          output = self.weight + input
        return output

my_module = MyModule(10,20)
sm = torch.jit.script(my_module)

如果需要排除nn.Module中的某些方法, 因为它们使用了 TorchScript 尚不支持的 Python 功能,可以使用@torch.jit.ignore

sm是一个 ScriptModule准备好序列化的实例。

第 2 步:将脚本模块序列化为文件

通过 跟踪或注释 PyTorch模型的方法 获取ScriptModule后,就可以将其序列化为文件。稍后,将能够在 C++ 中从此文件加载模块并执行它,而不依赖于 Python。假设要序列化前面在跟踪示例中显示的模型ResNet18。要执行序列化,只需 在模块上调用[save] 并将文件名传递给它:(pytorch.org/docs/master…)

traced_script_module.save("traced_resnet_model.pt")

这将在工作目录中生成一个文件traced_resnet_model.pt。如果想序列化sm,请调用sm.save("my_module_model.pt") 现在可以离开 Python 领域,准备跨入 C++ 领域。

第 3 步:在 C++ 中加载脚本模块

要在 C++ 中加载刚才序列化 PyTorch 模型,应用程序必须依赖于 PyTorch C++ API——也称为LibTorch。LibTorch 发行版包含一组共享库、头文件和 CMake 构建配置文件。虽然 CMake 不是依赖 LibTorch 的必要条件,但推荐使用它,并且会在未来得到很好的支持。在本文中,将使用 CMake 和 LibTorch 构建一个最小的 C++ 应用程序,它只是加载和执行序列化的 PyTorch 模型。

3.1 一个最小的 C++ 应用程序

从加载模块的代码开始。以下内容已经完成:

#include <torch/script.h> // One-stop header.

#include <iostream>
#include <memory>

int main(int argc, const char* argv[]) {
  if (argc != 2) {
    std::cerr << "usage: example-app <path-to-exported-script-module>\n";
    return -1;
  }


  torch::jit::script::Module module;
  try {
    // Deserialize the ScriptModule from a file using torch::jit::load().
    module = torch::jit::load(argv[1]);
  }
  catch (const c10::Error& e) {
    std::cerr << "error loading the model\n";
    return -1;
  }

  std::cout << "ok\n";
}

<torch/script.h>头包含运行示例所需的 LibTorch 库中的所有相关内容。应用程序接受序列化 PyTorch ScriptModule的文件路径作为其唯一的命令行参数,然后使用该函数c处理反序列化模块,该torch::jit::load() 函数将此文件路径作为输入。它返回一个torch::jit::script::Module 对象。稍后将研究如何执行它。

3.2 依赖 LibTorch 并构建应用程序

将上述代码存储到一个名为example-app.cppCMakeLists.txt构建它的最小化可能看起来很简单:

cmake_minimum_required(VERSION 3.0 FATAL_ERROR)
project(custom_ops)

find_package(Torch REQUIRED)

add_executable(example-app example-app.cpp)
target_link_libraries(example-app "${TORCH_LIBRARIES}")
set_property(TARGET example-app PROPERTY CXX_STANDARD 14)

构建示例应用程序所需的最后一件事是 LibTorch 发行版。可以从PyTorch 网站上的下载页面获取最新的稳定版本。下载并解压缩最新的存档,会看到一个具有以下目录结构的文件夹:

libtorch/
  bin/
  include/
  lib/
  share/
  • lib/文件夹包含必须链接的共享库,
  • include/文件夹包含程序需要包含的头文件,
  • 该文件夹包含启用上述简单命令share/所需的 CMake 配置。find_package(Torch)

提示:

在 Windows 上,debug和release版本 ABI 不兼容。如果在调试模式下构建项目,请尝试 LibTorch 的调试版本。此外,请确保在cmake --build . 下面的行中指定正确的配置。

最后一步是构建应用程序。为此,假设示例目录布局如下:

example-app/
  CMakeLists.txt
  example-app.cpp

现在可以运行以下命令从 example-app/文件夹中构建应用程序:

mkdir build
cd build
cmake -DCMAKE_PREFIX_PATH=/path/to/libtorch ..
cmake --build . --config Release

/path/to/libtorch是解压后的 LibTorch 发行版的完整路径。如果一切顺利,它是这样:

root@4b5a67132e81:/example-app# mkdir build
root@4b5a67132e81:/example-app# cd build
root@4b5a67132e81:/example-app/build# cmake -DCMAKE_PREFIX_PATH=/path/to/libtorch ..
-- The C compiler identification is GNU 5.4.0
-- The CXX compiler identification is GNU 5.4.0
-- Check for working C compiler: /usr/bin/cc
-- Check for working C compiler: /usr/bin/cc -- works
-- Detecting C compiler ABI info
-- Detecting C compiler ABI info - done
-- Detecting C compile features
-- Detecting C compile features - done
-- Check for working CXX compiler: /usr/bin/c++
-- Check for working CXX compiler: /usr/bin/c++ -- works
-- Detecting CXX compiler ABI info
-- Detecting CXX compiler ABI info - done
-- Detecting CXX compile features
-- Detecting CXX compile features - done
-- Looking for pthread.h
-- Looking for pthread.h - found
-- Looking for pthread_create
-- Looking for pthread_create - not found
-- Looking for pthread_create in pthreads
-- Looking for pthread_create in pthreads - not found
-- Looking for pthread_create in pthread
-- Looking for pthread_create in pthread - found
-- Found Threads: TRUE
-- Configuring done
-- Generating done
-- Build files have been written to: /example-app/build
root@4b5a67132e81:/example-app/build# make
Scanning dependencies of target example-app
[ 50%] Building CXX object CMakeFiles/example-app.dir/example-app.cpp.o
[100%] Linking CXX executable example-app
[100%] Built target example-app

将之前创建的跟踪ResNet18模型 traced_resnet_model.pt 的路径提供给生成的example-app二进制文件,会得到一个友好的“ok”奖励。请注意,如果尝试与my_module_model.pt您一起运行此示例,将收到一条错误消息,指出输入形状不兼容。my_module_model.pt期望 1D 而不是 4D。

root@4b5a67132e81:/example-app/build# ./example-app <path_to_model>/traced_resnet_model.pt
ok

第 4 步:在 C++ 中执行脚本模块

在 C++ 中成功加载了序列化ResNet18后,现在只需几行代码即可执行它!将这些行添加到 C++ 应用程序的main()函数中:

// Create a vector of inputs.
std::vector<torch::jit::IValue> inputs;
inputs.push_back(torch::ones({1, 3, 224, 224}));

// Execute the model and turn its output into a tensor.
at::Tensor output = module.forward(inputs).toTensor();
std::cout << output.slice(/*dim=*/1, /*start=*/0, /*end=*/5) << '\n';

前两行设置了模型的输入。创建一个torch::jit::IValue(一个类型擦除的值类型script::Module方法接受和返回)的向量 ,并添加一个输入。使用 torch::ones()创建输入张量, 。然后运行script::Module'forward方法,将创建的输入向量传递给它。返回一个IValue ,并调用toTensor()将其转换为张量。

提示:

要了解更多关于函数torch::ones和 PyTorch C++ API 的更多信息,请参阅pytorch.org/cppdocs上的文档。PyTorch C++ API 提供与 Python API 接近的特性,允许您像在 Python 中一样进一步操作和处理张量。

在最后一行,打印输出的前五个条目。由于在文前面的 Python 中为模型提供了相同的输入,因此理想情况下应该看到相同的输出。通过重新编译应用程序并使用相同的序列化模型运行它来尝试一下:

root@4b5a67132e81:/example-app/build# make
Scanning dependencies of target example-app
[ 50%] Building CXX object CMakeFiles/example-app.dir/example-app.cpp.o
[100%] Linking CXX executable example-app
[100%] Built target example-app
root@4b5a67132e81:/example-app/build# ./example-app traced_resnet_model.pt
-0.2698 -0.0381  0.4023 -0.3010 -0.0448
[ Variable[CPUFloatType]{1,5} ]

作为参考,之前 Python 中的输出是:

tensor([-0.2698, -0.0381,  0.4023, -0.3010, -0.0448], grad_fn=<SliceBackward>)

看起来一样!

提示:

可以使用model.to(at::kCUDA);将模型移动到 GPU 内存. 通过调用tensor.to(at::kCUDA)确保模型的输入也存在于 CUDA 内存中,这将在 CUDA 内存中返回一个新的张量。

第 5 步:获取帮助和探索 API

本文有望使您对 PyTorch 模型从 Python 迁移到 C++ 的过程有一个大致的了解。使用本文中描述的概念,应该能够从一个普通的、“eager” PyTorch 模型,到用Python 编译模型ScriptModule ,再到磁盘上的序列化文件,然后到C++ script::Module中的可执行文件。

当然,还有很多概念没有涉及。例如,您可能会发现自己想要使用 C++ 或 CUDA 实现的自定义运算符来扩展ScriptModule,并在纯 C++ 生产环境中加载并执行ScriptModule自定义运算符 。这是可行的,并且得到了很好的支持!可以浏览文件夹中的示例,我们将很快更新文档。目前,以下链接通常可能会有所帮助:

与往常一样,如果遇到任何问题或有疑问,可以使用 论坛GitHub 问题进行联系。

原文地址