在了解线性回归的关键思想之后,我们可以开始通过代码来动手实现线性回归了。本节将从零开始实现整个方法,包括数据流水线、模型、损失函数和小批量随机梯度下降优化器。尽管现代深度学习框架几乎可以自动化地进行所有这些工作,但从零开始实现可以确保我们真正知道自己在做什么,同时也方便我们自定义模型和损失函数。
1. 生成数据集
为了简单起见,我们将根据带有噪声的线性模型构造一个人造数据集。我们的任务是 使用这个有限样本的数据集来恢复这个模型的参数。我们将使用低维数据,这样可以很容易地将其可视化。下面的代码生成一个包含1000个样本的数据集,每个样本包含从标准正态分布中采样的2个特征。
import torch
def synthetic_data(w, b, num_samples):
"""生成y=Xw+b+噪声"""
X = torch.normal(0, 1, size=[num_samples, len(w)])
y = torch.matmul(X, w) + b
y += torch.normal(0, 0.01, size=y.shape)
return X, y.reshape([-1, 1])
true_w = torch.tensor([2, -3.4])
true_b = 4.2
features, labels = synthetic_data(true_w, true_b, 1000)
print(features)
"""
tensor([[ 2.3677e+00, 7.5134e-01],
[-3.7171e-01, 1.5981e-01],
[-7.3188e-01, 1.0761e+00],
...,
[-4.5435e-01, 4.1389e-01],
[-1.1956e+00, -2.6251e-01],
[-9.7987e-04, 1.2006e+00]])
"""
print(labels)
"""
tensor([[ 6.3847],
[ 2.8922],
[-0.9378],
...,
[ 1.8783],
[ 2.6986],
[ 0.1151]])
"""
这里,features 中的每一行都包含一个二维数据样本,labels 中的每一行都包含一维标签值(一个标量)。我们可以通过生成第二个特征 features[:, 1] 和 labels 的散点图,直观观察到两者之间的线性关系。
d2l.set_figsize((7, 5))
d2l.plt.scatter(features[:, 1].detach().numpy(), labels.detach().numpy(), 1)
d2l.plt.xlabel("Feature")
d2l.plt.ylabel("Label")
d2l.plt.show()
2. 读取数据集
训练模型时需要对数据集进行遍历,每次抽取一小批量样本,并使用它们来更新我们的模型。为此,我们定义一个data_iter函数,该函数接收批量大小、特征矩阵和标签向量作为输入,生成大小为batch_size的小批量。
def data_iter(batch_size, features, labels):
num_examples = len(features)
indices = list(range(num_examples))
random.shuffle(indices)
for i in range(0, num_examples, batch_size):
batch_indices = torch.tensor(indices[i:min(i + batch_size, num_examples)])
yield features[batch_indices], labels[batch_indices]
for x, y in data_iter(5, features, labels):
print(x)
"""
tensor([[ 0.1518, -0.6086],
[ 0.1969, -0.4758],
[-0.0306, -0.0175],
[-1.0726, -1.7094],
[ 0.6212, 0.4017]])
"""
print(y)
"""
tensor([[6.5728],
[6.2084],
[4.1994],
[7.8742],
[4.0875]])
"""
break
3. 初始化模型参数
在开始用小批量随机梯度下降优化我们的模型参数之前,我们需要初始化一些参数。我们通过从均值为0、标准差为0.01的正态分布中采样随机数来初始化权重,并将偏置初始化为0。
w = torch.normal(0, 0.01, size=[2], requires_grad=True)
b = torch.zeros(1, requires_grad=True)
4. 定义模型
接下来,我们必须定义模型,将模型的输入和参数同模型的输出关联起来。计算线性模型的输出时,只需计算输入特征和模型权重的矩阵-向量乘法后加上偏置。
def linreg(X, w, b):
"""线性回归模型"""
return torch.matmul(X, w) + b
5. 定义损失函数
这里我们使用均方损失函数来计算模型的损失。需要注意的是,我们需要将真实值 的形状转换为和预测值 的形状相同。
def squared_loss(y_hat, y):
"""均方损失"""
return (y_hat - y.reshape(y_hat.shape)) ** 2 / 2
6. 定义优化算法
线性回归有解析解,但我们在这里介绍小批量随机梯度下降。每一步中,使用从数据集中随机抽取的一个小批量,然后根据参数计算损失的梯度,朝着减少损失的方向更新参数。
def sgd(params, lr, batch_size):
"""小批量随机梯度下降"""
with torch.no_grad():
for param in params:
param -= lr * param.grad / batch_size # 更新参数
param.grad.zero_() # 清空梯度
7. 训练
现在我们已经准备好了训练模型所需的要素,可以实现主要的训练过程部分。我们在每个迭代周期中使用data_iter函数遍历整个数据集,并使用训练数据集中的所有样本。
lr = 0.03
num_epochs = 3
net = linreg
loss = squared_loss
batch_size = 10
for epoch in range(num_epochs):
for X, y in data_iter(batch_size, features, labels):
y_hat = net(X, w, b)
l = loss(y_hat, y) # 计算小批量损失
l.sum().backward() # 反向传播计算梯度
sgd([w, b], lr, batch_size) # 更新参数
with torch.no_grad():
train_l = loss(net(features, w, b), labels)
print(f'epoch {epoch + 1}, loss {float(train_l.mean()):f}')
epoch 1, loss 0.033658
epoch 2, loss 0.000111
epoch 3, loss 0.000048
8. 结果评估
训练结束后,我们可以通过比较真实参数和训练学到的参数来评估训练的成功程度。
print(f'训练学习到的w值: {w.detach().numpy()},w的真实值:{true_w.numpy()}')
print(f'训练学习到的b值 {b.detach().item()},b的真实值:{true_b}')
训练学习到的w值: [ 1.9996216 -3.3992212],w的真实值:[ 2. -3.4]
训练学习到的b值 4.199209690093994,b的真实值:4.2
小结
通过这一节,我们学习了线性回归模型的实现与优化过程。我们使用张量和自动微分,避免了定义层或复杂优化器的需要。后续章节中,我们将基于这些概念,学习其他模型的实现。