本教程以 Sasank Chilamkurthy 编写的原始PyTorch 迁移学习教程为基础。
迁移学习是指利用预训练模型应用于不同数据集的技术。迁移学习有两种主要的使用方式:
- ConvNet 作为固定特征提取器:“冻结” 网络中所有参数的权重,除了最后几层(也称为“头部”,通常是全连接层)的权重。最后这些层被替换为用随机权重初始化的新层,并且只训练这些层。
- 微调 ConvNet:不是随机初始化,而是使用预训练网络初始化模型,之后训练照常进行,但使用不同的数据集。通常,如果输出大小不同,头部(或部分)也会在网络中被替换。在这种方法中,通常将学习率设置为较小的数字。这样做是因为网络已经过训练,只需进行微小的更改即可将其“微调”到新的数据集。
也可以结合以上两种方法:首先可以冻结特征提取器,训练头部。之后,您可以解冻特征提取器(或其中的一部分),将学习率设置为较小的值,然后继续训练。
在这一部分中,将使用第一种方法——使用量化模型进行提取特征。
第 1 部分。前提条件
在深入了解迁移学习之前,先回顾一下“前提条件”,例如安装和数据加载/可视化。
# Imports
import copy
import matplotlib.pyplot as plt
import numpy as np
import os
import time
plt.ion()
1.1 安装最新版本torch 和 torchvision
建议安装最新版本的torch和 torchvision. 您可以在此处找到有关本地安装的最新说明。例如,要在不支持 GPU 的情况下安装:
pip install numpy
pip install --pre torch torchvision -f https://download.pytorch.org/whl/nightly/cpu/torch_nightly.html
# For CUDA support use https://download.pytorch.org/whl/nightly/cu101/torch_nightly.html
1.2 加载数据
提示:
本节与原始迁移学习教程相同。
使用torchvision和torch.utils.data包来加载数据。
要解决的问题是从图像中对蚂蚁和 蜜蜂进行分类。 该数据集包含大约 120 个蚂蚁和蜜蜂的训练图像。每个类有 75 个验证图像。这是一个非常小的泛化数据集。然而,由于迁移学习,所以应该能够很好地泛化。
该数据集是 imagenet 的一个非常小的子集。
提示:
从这里下载数据 并将其解压缩到data目录中。
import torch
from torchvision import transforms, datasets
# Data augmentation and normalization for training
# Just normalization for validation
data_transforms = {
'train': transforms.Compose([
transforms.Resize(224),
transforms.RandomCrop(224),
transforms.RandomHorizontalFlip(),
transforms.ToTensor(),
transforms.Normalize([0.485, 0.456, 0.406], [0.229, 0.224, 0.225])
]),
'val': transforms.Compose([
transforms.Resize(224),
transforms.CenterCrop(224),
transforms.ToTensor(),
transforms.Normalize([0.485, 0.456, 0.406], [0.229, 0.224, 0.225])
]),
}
data_dir = 'data/hymenoptera_data'
image_datasets = {x: datasets.ImageFolder(os.path.join(data_dir, x),
data_transforms[x])
for x in ['train', 'val']}
dataloaders = {x: torch.utils.data.DataLoader(image_datasets[x], batch_size=16,
shuffle=True, num_workers=8)
for x in ['train', 'val']}
dataset_sizes = {x: len(image_datasets[x]) for x in ['train', 'val']}
class_names = image_datasets['train'].classes
device = torch.device("cuda:0" if torch.cuda.is_available() else "cpu")
1.3 可视化一些图像
可视化一些训练图像,以增强对数据的了解。
import torchvision
def imshow(inp, title=None, ax=None, figsize=(5, 5)):
"""Imshow for Tensor."""
inp = inp.numpy().transpose((1, 2, 0))
mean = np.array([0.485, 0.456, 0.406])
std = np.array([0.229, 0.224, 0.225])
inp = std * inp + mean
inp = np.clip(inp, 0, 1)
if ax is None:
fig, ax = plt.subplots(1, figsize=figsize)
ax.imshow(inp)
ax.set_xticks([])
ax.set_yticks([])
if title is not None:
ax.set_title(title)
# Get a batch of training data
inputs, classes = next(iter(dataloaders['train']))
# Make a grid from batch
out = torchvision.utils.make_grid(inputs, nrow=4)
fig, ax = plt.subplots(1, figsize=(10, 10))
imshow(out, title=[class_names[x] for x in classes], ax=ax)
1.4 训练模型用到的函数
下面是训练模型用到的几个通用函数。这个函数用来完成:
- 调整学习率
- 保存最佳模型
def train_model(model, criterion, optimizer, scheduler, num_epochs=25, device='cpu'):
"""
Support function for model training.
Args:
model: Model to be trained
criterion: Optimization criterion (loss)
optimizer: Optimizer to use for training
scheduler: Instance of ``torch.optim.lr_scheduler``
num_epochs: Number of epochs
device: Device to run the training on. Must be 'cpu' or 'cuda'
"""
since = time.time()
best_model_wts = copy.deepcopy(model.state_dict())
best_acc = 0.0
for epoch in range(num_epochs):
print('Epoch {}/{}'.format(epoch, num_epochs - 1))
print('-' * 10)
# Each epoch has a training and validation phase
for phase in ['train', 'val']:
if phase == 'train':
model.train() # Set model to training mode
else:
model.eval() # Set model to evaluate mode
running_loss = 0.0
running_corrects = 0
# Iterate over data.
for inputs, labels in dataloaders[phase]:
inputs = inputs.to(device)
labels = labels.to(device)
# zero the parameter gradients
optimizer.zero_grad()
# forward
# track history if only in train
with torch.set_grad_enabled(phase == 'train'):
outputs = model(inputs)
_, preds = torch.max(outputs, 1)
loss = criterion(outputs, labels)
# backward + optimize only if in training phase
if phase == 'train':
loss.backward()
optimizer.step()
# statistics
running_loss += loss.item() * inputs.size(0)
running_corrects += torch.sum(preds == labels.data)
if phase == 'train':
scheduler.step()
epoch_loss = running_loss / dataset_sizes[phase]
epoch_acc = running_corrects.double() / dataset_sizes[phase]
print('{} Loss: {:.4f} Acc: {:.4f}'.format(
phase, epoch_loss, epoch_acc))
# deep copy the model
if phase == 'val' and epoch_acc > best_acc:
best_acc = epoch_acc
best_model_wts = copy.deepcopy(model.state_dict())
print()
time_elapsed = time.time() - since
print('Training complete in {:.0f}m {:.0f}s'.format(
time_elapsed // 60, time_elapsed % 60))
print('Best val Acc: {:4f}'.format(best_acc))
# load best model weights
model.load_state_dict(best_model_wts)
return model
1.5 可视化模型预测用到的函数
显示一些预测图像的通用函数
def visualize_model(model, rows=3, cols=3):
was_training = model.training
model.eval()
current_row = current_col = 0
fig, ax = plt.subplots(rows, cols, figsize=(cols*2, rows*2))
with torch.no_grad():
for idx, (imgs, lbls) in enumerate(dataloaders['val']):
imgs = imgs.cpu()
lbls = lbls.cpu()
outputs = model(imgs)
_, preds = torch.max(outputs, 1)
for jdx in range(imgs.size()[0]):
imshow(imgs.data[jdx], ax=ax[current_row, current_col])
ax[current_row, current_col].axis('off')
ax[current_row, current_col].set_title('predicted: {}'.format(class_names[preds[jdx]]))
current_col += 1
if current_col >= cols:
current_row += 1
current_col = 0
if current_row >= rows:
model.train(mode=was_training)
return
model.train(mode=was_training)
第 2 部分。训练基于量化特征提取的自定义分类器
在本节中,您将使用“冻结”量化特征提取器,并在其上训练自定义分类器头。与浮点模型不同,不需要为量化模型设置 requires_grad=False,因为它没有可训练的参数。请参阅 文档以获取更多详细信息。
加载预训练模型:在本练习中,您将使用 ResNet-18。
import torchvision.models.quantization as models
# You will need the number of filters in the `fc` for future use.
# Here the size of each output sample is set to 2.
# Alternatively, it can be generalized to nn.Linear(num_ftrs, len(class_names)).
model_fe = models.resnet18(pretrained=True, progress=True, quantize=True)
num_ftrs = model_fe.fc.in_features
此时需要修改预训练模型。该模型在开头和结尾都有量化/去量化块。但是,因为将只使用特征提取器,所以去量化层必须在线性层(头部)之前移动。最简单的方法是将模型包装在nn.Sequential模块中。
第一步是隔离 ResNet 模型中的特征提取器。尽管在此示例中,任务是使用除 fc特征提取器之外的所有层,但实际上,可以根据需要获取任意数量的部分。如果还想替换一些卷积层,这将很有用。
提示:
将特征提取器与量化模型的其余部分分离时,必须手动将量化器/去量化器放置在要保持量化的部分的开头和结尾。
下面的函数创建一个带有自定义头部的模型。
from torch import nn
def create_combined_model(model_fe):
# Step 1. Isolate the feature extractor.
model_fe_features = nn.Sequential(
model_fe.quant, # Quantize the input 量化输入
model_fe.conv1,
model_fe.bn1,
model_fe.relu,
model_fe.maxpool,
model_fe.layer1,
model_fe.layer2,
model_fe.layer3,
model_fe.layer4,
model_fe.avgpool,
model_fe.dequant, # Dequantize the output 去量化输出
)
# Step 2. Create a new "head"
new_head = nn.Sequential(
nn.Dropout(p=0.5),
nn.Linear(num_ftrs, 2),
)
# Step 3. Combine, and don't forget the quant stubs.
new_model = nn.Sequential(
model_fe_features,
nn.Flatten(1),
new_head,
)
return new_model
警告
目前量化模型只能在 CPU 上运行。但是,可以将模型的非量化部分发送到 GPU。
import torch.optim as optim
new_model = create_combined_model(model_fe)
new_model = new_model.to('cpu')
criterion = nn.CrossEntropyLoss()
# Note that we are only training the head.
optimizer_ft = optim.SGD(new_model.parameters(), lr=0.01, momentum=0.9)
# Decay LR by a factor of 0.1 every 7 epochs
exp_lr_scheduler = optim.lr_scheduler.StepLR(optimizer_ft, step_size=7, gamma=0.1)
2.1 训练和评估
这一步在 CPU 上大约需要 15-25 分钟。因为量化模型只能在 CPU 上运行,所以不能在 GPU 上运行训练。
new_model = train_model(new_model, criterion, optimizer_ft, exp_lr_scheduler,
num_epochs=25, device='cpu')
visualize_model(new_model)
plt.tight_layout()
第 3 部分。微调可量化模型
在这一部分中,微调了用于迁移学习的特征提取器,并对特征提取器进行了量化。请注意,在第 2 部分和第 3 部分中,特征提取器都是量化的。不同之处在于,在第 2 部分中,使用了预训练的量化模型。在这一部分中(第 3 部分),将在对感兴趣的数据集进行微调后创建一个量化的特征提取器,因此这是一种通过迁移学习获得更好准确性的方法,同时具有量化的好处。请注意,在这个具体示例中,训练集非常小(120 张图像),因此微调整个模型的好处并不明显。但是,此处显示的过程将提高使用更大数据集进行迁移学习的准确性。
预训练的特征提取器必须是可量化的。为确保它是可量化的,请执行以下步骤:
- 融合
(Conv, BN, ReLU),(Conv, BN)和(Conv, ReLU),使用torch.quantization.fuse_modules.- 将特征提取器与自定义头部连接。这需要对特征提取器的输出进行去量化。
- 在特征提取器的适当位置插入假量化模块,以模拟训练期间的量化。
对于步骤 (1),我们使用来自torchvision/models/quantization的模型,它有一个成员方法fuse_model。此函数融合了所有conv、 bn和relu模块。对于自定义模型,这将需要torch.quantization.fuse_modules使用模块列表调用 API 以手动融合。
步骤 (2) 由上一节中使用的函数create_combined_model执行。
步骤(3)是通过使用torch.quantization.prepare_qat来实现的,它插入了假量化模块。
作为步骤(4),您可以开始“微调”模型,然后将其转换为完全量化的版本(步骤 5)。
要将微调模型转换为量化模型,您可以调用该 torch.quantization.convert函数(在我们的例子中,只有特征提取器被量化)。
提示:
由于随机初始化,您的结果可能与本教程中显示的结果不同。
# notice `quantize=False`
model = models.resnet18(pretrained=True, progress=True, quantize=False)
num_ftrs = model.fc.in_features
# Step 1
model.train()
model.fuse_model()
# Step 2
model_ft = create_combined_model(model)
model_ft[0].qconfig = torch.quantization.default_qat_qconfig # Use default QAT configuration
# Step 3
model_ft = torch.quantization.prepare_qat(model_ft, inplace=True)
3.1 微调模型
在当前教程中,整个模型都进行了微调。一般来说,这将导致更高的准确性。然而,由于这里使用的训练集很小,最终会过度拟合训练集。
步骤 4. 微调模型
for param in model_ft.parameters():
param.requires_grad = True
model_ft.to(device) # We can fine-tune on GPU if available
criterion = nn.CrossEntropyLoss()
# Note that we are training everything, so the learning rate is lower
# Notice the smaller learning rate
optimizer_ft = optim.SGD(model_ft.parameters(), lr=1e-3, momentum=0.9, weight_decay=0.1)
# Decay LR by a factor of 0.3 every several epochs
exp_lr_scheduler = optim.lr_scheduler.StepLR(optimizer_ft, step_size=5, gamma=0.3)
model_ft_tuned = train_model(model_ft, criterion, optimizer_ft, exp_lr_scheduler,
num_epochs=25, device=device)
Step 5. 转换为量化模型
from torch.quantization import convert
model_ft_tuned.cpu()
model_quantized_and_trained = convert(model_ft_tuned, inplace=False)
测试一下量化模型在几张图像上的表现
visualize_model(model_quantized_and_trained)
plt.ioff()
plt.tight_layout()
plt.show()