Machine-Learning-Mastery-PyTorch-教程-八-Machine Learning Maste

Machine Learning Mastery PyTorch 教程（八）

原文：Machine Learning Mastery

协议：CC BY-NC-SA 4.0

使用 PyTorch 的 Autograd 解决回归问题

原文：machinelearningmastery.com/using-autograd-in-pytorch-to-solve-a-regression-problem/

我们通常使用 PyTorch 来构建神经网络。然而，PyTorch 不仅仅能做到这些。由于 PyTorch 还是一个具有自动微分能力的张量库，你可以轻松使用它来解决梯度下降的数值优化问题。在这篇文章中，你将学习 PyTorch 的自动微分引擎 autograd 是如何工作的。

完成此教程后，你将学到：

PyTorch 中的 autograd 是什么
如何利用 autograd 和优化器解决优化问题

快速启动你的项目，参考我的书籍《PyTorch 深度学习》。它提供了 自学教程 和 可运行的代码。

让我们开始吧！

使用 PyTorch 中的 autograd 来解决回归问题。

概述

本教程分为三个部分：

PyTorch 中的 Autograd
使用 Autograd 进行多项式回归
使用 Autograd 解决数学难题

PyTorch 中的 Autograd

在 PyTorch 中，你可以将张量创建为变量或常量，并用它们构建表达式。这个表达式本质上是变量张量的函数。因此，你可以推导出其导数函数，即微分或梯度。这是深度学习模型训练循环的基础。PyTorch 核心中包含了这一特性。

用一个示例来解释 autograd 更容易。在 PyTorch 中，你可以如下创建一个常量矩阵：

import torch

x = torch.tensor([1, 2, 3])
print(x)
print(x.shape)
print(x.dtype)

上述打印：

tensor([1, 2, 3])
torch.Size([3])
torch.int64

这将创建一个整数向量（以 PyTorch 张量的形式）。这个向量在大多数情况下可以像 NumPy 向量一样工作。例如，你可以进行 x+x 或 2*x，结果正是你所期望的。PyTorch 配有许多与 NumPy 匹配的数组操作函数，如 torch.transpose 或 torch.concatenate。

但这个张量不被视为函数的变量，因为不支持对其进行微分。你可以通过一个额外的选项创建像变量一样工作的张量：

import torch

x = torch.tensor([1., 2., 3.], requires_grad=True)
print(x)
print(x.shape)
print(x.dtype)

这将打印：

tensor([1., 2., 3.], requires_grad=True)
torch.Size([3])
torch.float32

请注意，上述创建了一个浮点值的张量。这是必要的，因为微分需要浮点数，而不是整数。

操作（如 x+x 和 2*x）仍然可以应用，但在这种情况下，张量将记住它如何获得其值。你可以在以下示例中演示这一特性：

import torch

x = torch.tensor(3.6, requires_grad=True)
y = x * x
y.backward()
print(x.grad)

这将打印：

tensor(7.2000)

它的作用如下：这定义了一个变量 x（值为 3.6），然后计算 y=x*x 或 $y=x²$ 。然后你请求 $y$ 的微分。由于 $y$ 的值来源于 $x$ ，你可以在运行 y.backward() 之后立即在 x.grad 中以张量形式找到 $\dfrac{dy}{dx}$ 。你知道 $y=x²$ 意味着 $y’=2x$ 。因此输出会给你 $3.6\times 2=7.2$ 的值。

想要开始使用 PyTorch 进行深度学习？

现在立即报名我的免费电子邮件速成课程（包括示例代码）。

点击报名，还可以获得免费 PDF 电子书版本的课程。

使用 Autograd 进行多项式回归

PyTorch 中这个特性有什么帮助？假设你有一个形式为 $y=f(x)$ 的多项式，并且你得到了一些 $(x,y)$ 样本。你如何恢复多项式 $f(x)$ ？一种方法是对多项式假设一个随机系数，并将样本 $(x,y)$ 输入进去。如果多项式被找到，你应该看到 $y$ 的值与 $f(x)$ 匹配。它们越接近，你的估计就越接近正确的多项式。

这确实是一个数值优化问题，你想最小化 $y$ 和 $f(x)$ 之间的差异。你可以使用梯度下降来解决它。

让我们考虑一个例子。你可以按照如下方式在 NumPy 中构建一个多项式 $f(x)=x² + 2x + 3$ ：

import numpy as np

polynomial = np.poly1d([1, 2, 3])
print(polynomial)

这将输出：

   2
1 x + 2 x + 3

你可以将多项式用作函数，例如：

print(polynomial(1.5))

这将输出 8.25，因为 $(1.5)²+2\times(1.5)+3 = 8.25$ 。

现在你可以使用 NumPy 从这个函数生成大量样本：

N = 20   # number of samples

# Generate random samples roughly between -10 to +10
X = np.random.randn(N,1) * 5
Y = polynomial(X)

上述内容中，X 和 Y 都是形状为 (20,1) 的 NumPy 数组，它们与多项式 $f(x)$ 的 $y=f(x)$ 相关。

现在，假设你不知道这个多项式是什么，只知道它是二次的。你想恢复系数。由于二次多项式的形式为 $Ax²+Bx+C$ ，你有三个未知数需要找出。你可以使用你实现的梯度下降算法或现有的梯度下降优化器来找到它们。以下展示了它是如何工作的：

import torch

# Assume samples X and Y are prepared elsewhere

XX = np.hstack([X*X, X, np.ones_like(X)])

w = torch.randn(3, 1, requires_grad=True)  # the 3 coefficients
x = torch.tensor(XX, dtype=torch.float32)  # input sample
y = torch.tensor(Y, dtype=torch.float32)   # output sample
optimizer = torch.optim.NAdam([w], lr=0.01)
print(w)

for _ in range(1000):
    optimizer.zero_grad()
    y_pred = x @ w
    mse = torch.mean(torch.square(y - y_pred))
    mse.backward()
    optimizer.step()

print(w)

循环之前的 print 语句给出了三个随机数字，例如：

tensor([[1.3827],
        [0.8629],
        [0.2357]], requires_grad=True)

但在循环之后的结果会给你非常接近多项式中的系数：

tensor([[1.0004],
        [1.9924],
        [2.9159]], requires_grad=True)

上述代码的作用如下：首先，它创建了一个包含 3 个值的变量向量 w，即系数 $A,B,C$ 。然后，你创建了一个形状为 $(N,3)$ 的数组，其中 $N$ 是数组 X 中样本的数量。这个数组有 3 列：分别是 $x²$ 、 $x$ 和 1。这样的数组是通过 np.hstack() 函数从向量 X 构建的。类似地，你可以从 NumPy 数组 Y 构建 TensorFlow 常量 y。

随后，你使用 for 循环在 1,000 次迭代中运行梯度下降。在每次迭代中，你以矩阵形式计算 $x \times w$ 以找到 $Ax²+Bx+C$ 并将其分配给变量y_pred。然后，比较y和y_pred并计算均方误差。接下来，使用backward()函数导出梯度，即均方误差相对于系数w的变化率。根据这个梯度，你通过优化器使用梯度下降更新w。

本质上，上述代码将找到最小化均方误差的系数w。

综合以上，以下是完整的代码：

import numpy as np
import torch

polynomial = np.poly1d([1, 2, 3])
N = 20   # number of samples

# Generate random samples roughly between -10 to +10
X = np.random.randn(N,1) * 5
Y = polynomial(X)

# Prepare input as an array of shape (N,3)
XX = np.hstack([X*X, X, np.ones_like(X)])

# Prepare tensors
w = torch.randn(3, 1, requires_grad=True)  # the 3 coefficients
x = torch.tensor(XX, dtype=torch.float32)  # input sample
y = torch.tensor(Y, dtype=torch.float32)   # output sample
optimizer = torch.optim.NAdam([w], lr=0.01)
print(w)

# Run optimizer
for _ in range(1000):
    optimizer.zero_grad()
    y_pred = x @ w
    mse = torch.mean(torch.square(y - y_pred))
    mse.backward()
    optimizer.step()

print(w)

使用自动微分解决数学难题

在上述中，使用了 20 个样本，这足以拟合一个二次方程。你也可以使用梯度下降来解决一些数学难题。例如，以下问题：

[ A ]  +  [ B ]  =  9
  +         -
[ C ]  -  [ D ]  =  1
  =         =
  8         2

换句话说，要找到 $A,B,C,D$ 的值，使得：

w := w – \alpha \dfrac{dy}{dw}

在这个公式中，$w$ 是参数，例如神经网络中的权重，而 $y$ 是目标，例如损失函数。它的作用是将 $w$ 移动到可以最小化 $y$ 的方向。这个方向由微分提供，即 $\dfrac{dy}{dw}$，但你应该移动 $w$ 的多少则由**学习率** $\alpha$ 控制。 一个简单的开始是使用在梯度下降算法中的恒定学习率。但使用**学习率调度**你可以做得更好。调度是使学习率适应梯度下降优化过程，从而提高性能并减少训练时间。 在神经网络训练过程中，数据以批次的形式输入网络，一个时期内有多个批次。每个批次触发一个训练步骤，其中梯度下降算法更新一次参数。然而，通常学习率调度只在每个 [训练时期](https://machinelearningmastery.com/difference-between-a-batch-and-an-epoch/) 更新一次。 你可以像每一步那样频繁地更新学习率，但通常它会在每个 epoch 更新一次，因为你需要了解网络的表现，以便决定学习率应该如何更新。通常，模型会在每个 epoch 使用验证数据集进行评估。 调整学习率的方式有多种。在训练开始时，你可能会倾向于使用较大的学习率，以便粗略地改进网络，从而加快进度。在非常复杂的神经网络模型中，你也可能会倾向于在开始时逐渐增加学习率，因为你需要网络在不同的预测维度上进行探索。然而，在训练结束时，你总是希望将学习率调整得更小。因为那时你即将获得模型的最佳性能，如果学习率过大会容易超调。 因此，在训练过程中，最简单且可能最常用的学习率适应方式是逐渐减少学习率的技术。这些技术的好处在于，在训练程序开始时使用较大的学习率值时，可以做出较大的更改，并在训练程序后期将学习率降低，从而使更新权重时的学习率较小，训练更新也较小。 这会在早期快速学习到好的权重，并在之后进行微调。 接下来，让我们看看如何在 PyTorch 中设置学习率调度。 **通过我的书籍** [《深度学习与 PyTorch》](https://machinelearningmastery.com/deep-learning-with-pytorch/) **来启动你的项目**。它提供了 **自学教程** 和 **可运行的代码**。 ## 在 PyTorch 训练中应用学习率调度 在 PyTorch 中，一个模型通过优化器进行更新，学习率是优化器的一个参数。学习率调度是一种算法，用于更新优化器中的学习率。 以下是创建学习率调度的示例： ```py import torch import torch.optim as optim import torch.optim.lr_scheduler as lr_scheduler scheduler = lr_scheduler.LinearLR(optimizer, start_factor=1.0, end_factor=0.3, total_iters=10) ``` PyTorch 在 `torch.optim.lr_scheduler` 子模块中提供了许多学习率调度器。所有的调度器都需要优化器作为第一个参数。根据调度器的不同，你可能需要提供更多的参数来进行设置。 我们从一个示例模型开始。下面的模型旨在解决 [电离层二分类问题](http://archive.ics.uci.edu/ml/datasets/Ionosphere)。这是一个小型数据集，你可以 [从 UCI 机器学习库下载](http://archive.ics.uci.edu/ml/machine-learning-databases/ionosphere/ionosphere.data)。将数据文件放置在你的工作目录中，文件名为 `ionosphere.csv`。 电离层数据集适合用于神经网络的练习，因为所有输入值都是相同量级的小数值。 一个小型神经网络模型构建了一个具有 34 个神经元的单隐藏层，使用 ReLU 激活函数。输出层有一个神经元，并使用 sigmoid 激活函数来输出类似概率的值。 使用的是普通随机梯度下降算法，固定学习率为 0.1。模型训练了 50 个周期。优化器的状态参数可以在`optimizer.param_groups`中找到；其中学习率是`optimizer.param_groups[0]["lr"]`的浮点值。在每个周期结束时，打印出优化器的学习率。 完整示例如下。 ```py import numpy as np import pandas as pd import torch import torch.nn as nn import torch.optim as optim from sklearn.preprocessing import LabelEncoder from sklearn.model_selection import train_test_split # load dataset, split into input (X) and output (y) variables dataframe = pd.read_csv("ionosphere.csv", header=None) dataset = dataframe.values X = dataset[:,0:34].astype(float) y = dataset[:,34] # encode class values as integers encoder = LabelEncoder() encoder.fit(y) y = encoder.transform(y) # convert into PyTorch tensors X = torch.tensor(X, dtype=torch.float32) y = torch.tensor(y, dtype=torch.float32).reshape(-1, 1) # train-test split for evaluation of the model X_train, X_test, y_train, y_test = train_test_split(X, y, train_size=0.7, shuffle=True) # create model model = nn.Sequential( nn.Linear(34, 34), nn.ReLU(), nn.Linear(34, 1), nn.Sigmoid() ) # Train the model n_epochs = 50 batch_size = 24 batch_start = torch.arange(0, len(X_train), batch_size) lr = 0.1 loss_fn = nn.BCELoss() optimizer = optim.SGD(model.parameters(), lr=lr) model.train() for epoch in range(n_epochs): for start in batch_start: X_batch = X_train[start:start+batch_size] y_batch = y_train[start:start+batch_size] y_pred = model(X_batch) loss = loss_fn(y_pred, y_batch) optimizer.zero_grad() loss.backward() optimizer.step() print("Epoch %d: SGD lr=%.4f" % (epoch, optimizer.param_groups[0]["lr"])) # evaluate accuracy after training model.eval() y_pred = model(X_test) acc = (y_pred.round() == y_test).float().mean() acc = float(acc) print("Model accuracy: %.2f%%" % (acc*100)) ``` 运行此模型产生： ```py Epoch 0: SGD lr=0.1000 Epoch 1: SGD lr=0.1000 Epoch 2: SGD lr=0.1000 Epoch 3: SGD lr=0.1000 Epoch 4: SGD lr=0.1000 ... Epoch 45: SGD lr=0.1000 Epoch 46: SGD lr=0.1000 Epoch 47: SGD lr=0.1000 Epoch 48: SGD lr=0.1000 Epoch 49: SGD lr=0.1000 Model accuracy: 86.79% ``` 你可以确认学习率在整个训练过程中没有变化。让我们让训练过程以较大的学习率开始，以较小的学习率结束。为了引入学习率调度器，你需要在训练循环中运行其`step()`函数。上述代码修改为以下内容： ```py import numpy as np import pandas as pd import torch import torch.nn as nn import torch.optim as optim import torch.optim.lr_scheduler as lr_scheduler from sklearn.preprocessing import LabelEncoder from sklearn.model_selection import train_test_split # load dataset, split into input (X) and output (y) variables dataframe = pd.read_csv("ionosphere.csv", header=None) dataset = dataframe.values X = dataset[:,0:34].astype(float) y = dataset[:,34] # encode class values as integers encoder = LabelEncoder() encoder.fit(y) y = encoder.transform(y) # convert into PyTorch tensors X = torch.tensor(X, dtype=torch.float32) y = torch.tensor(y, dtype=torch.float32).reshape(-1, 1) # train-test split for evaluation of the model X_train, X_test, y_train, y_test = train_test_split(X, y, train_size=0.7, shuffle=True) # create model model = nn.Sequential( nn.Linear(34, 34), nn.ReLU(), nn.Linear(34, 1), nn.Sigmoid() ) # Train the model n_epochs = 50 batch_size = 24 batch_start = torch.arange(0, len(X_train), batch_size) lr = 0.1 loss_fn = nn.BCELoss() optimizer = optim.SGD(model.parameters(), lr=lr) scheduler = lr_scheduler.LinearLR(optimizer, start_factor=1.0, end_factor=0.5, total_iters=30) model.train() for epoch in range(n_epochs): for start in batch_start: X_batch = X_train[start:start+batch_size] y_batch = y_train[start:start+batch_size] y_pred = model(X_batch) loss = loss_fn(y_pred, y_batch) optimizer.zero_grad() loss.backward() optimizer.step() before_lr = optimizer.param_groups[0]["lr"] scheduler.step() after_lr = optimizer.param_groups[0]["lr"] print("Epoch %d: SGD lr %.4f -> %.4f" % (epoch, before_lr, after_lr)) # evaluate accuracy after training model.eval() y_pred = model(X_test) acc = (y_pred.round() == y_test).float().mean() acc = float(acc) print("Model accuracy: %.2f%%" % (acc*100)) ``` 它打印出： ```py Epoch 0: SGD lr 0.1000 -> 0.0983 Epoch 1: SGD lr 0.0983 -> 0.0967 Epoch 2: SGD lr 0.0967 -> 0.0950 Epoch 3: SGD lr 0.0950 -> 0.0933 Epoch 4: SGD lr 0.0933 -> 0.0917 ... Epoch 28: SGD lr 0.0533 -> 0.0517 Epoch 29: SGD lr 0.0517 -> 0.0500 Epoch 30: SGD lr 0.0500 -> 0.0500 Epoch 31: SGD lr 0.0500 -> 0.0500 ... Epoch 48: SGD lr 0.0500 -> 0.0500 Epoch 49: SGD lr 0.0500 -> 0.0500 Model accuracy: 88.68% ``` 上述代码使用了`LinearLR()`。它是一个线性率调度器，并且需要三个附加参数，`start_factor`、`end_factor`和`total_iters`。你将`start_factor`设置为 1.0，`end_factor`设置为 0.5，`total_iters`设置为 30，因此它将在 10 个相等步骤中将乘法因子从 1.0 减少到 0.5。经过 10 步后，因子将保持在 0.5。这一因子随后会与优化器中的原始学习率相乘。因此，你将看到学习率从$0.1\times 1.0 = 0.1$减少到$0.1\times 0.5 = 0.05$。 除了`LinearLR()`，你还可以使用`ExponentialLR()`，其语法为： ```py scheduler = lr_scheduler.ExponentialLR(optimizer, gamma=0.99) ``` 如果你将`LinearLR()`替换为此，你将看到学习率更新如下： ```py Epoch 0: SGD lr 0.1000 -> 0.0990 Epoch 1: SGD lr 0.0990 -> 0.0980 Epoch 2: SGD lr 0.0980 -> 0.0970 Epoch 3: SGD lr 0.0970 -> 0.0961 Epoch 4: SGD lr 0.0961 -> 0.0951 ... Epoch 45: SGD lr 0.0636 -> 0.0630 Epoch 46: SGD lr 0.0630 -> 0.0624 Epoch 47: SGD lr 0.0624 -> 0.0617 Epoch 48: SGD lr 0.0617 -> 0.0611 Epoch 49: SGD lr 0.0611 -> 0.0605 ``` 在每次调度器更新时，学习率通过与常量因子`gamma`相乘来更新。 ## 自定义学习率调度 没有普遍适用的规则表明特定的学习率调度是最有效的。有时，你可能希望拥有 PyTorch 未提供的特殊学习率调度。可以使用自定义函数定义一个自定义学习率调度。例如，你希望有一个学习率为：

lr_n = \dfrac{lr_0}{1 + \alpha n}