SOFTMAX回归
基本概念回顾:
- 回归---估计一个连续值
- 分类---预测一个离散类别
softmax回归:实质是一个多类分类问题,得到对于每个类的预测置信度,并使用交叉熵来衡量预测和标号之间的差异度
- 为了解决分类问题---引入独热编码(one-hot encoding)。 独热编码是一个向量,它的分量和类别一样多。 类别对应的分量设置为1,其他所有分量设置为0。
尽管softmax是一个非线性函数,但softmax回归的输出仍然由输入特征的仿射变换决定。 因此,softmax回归是一个线性模型(linear model)。
实例--Fashion_MNIST
import torch
import torchvision
from torch.utils import data
from torchvision import transforms
from d2l import torch as d2l
import numpy as np
# 用svg格式显示图片
d2l.use_svg_display()
# 通过ToTensor实例将图像数据从PIL类型变换成32位浮点数格式,
# 并除以255使得所有像素的数值均在0~1之间
trans = transforms.ToTensor()
# 划分训练集和测试集
mnist_train = torchvision.datasets.FashionMNIST(
root="../data", train=True, transform=trans, download=True)
mnist_test = torchvision.datasets.FashionMNIST(
root="../data", train=False, transform=trans, download=True)
print(len(mnist_train))
def get_fashion_mnist_labels(labels):
"""返回Fashion-MNIST数据集的文本标签"""
text_labels = ['t-shirt', 'trouser', 'pullover', 'dress', 'coat',
'sandal', 'shirt', 'sneaker', 'bag', 'ankle boot']
return [text_labels[int(i)] for i in labels]
def show_images(imgs, num_rows, num_cols, titles=None, scale=1.5): # @save
"""绘制图像列表"""
figsize = (num_cols * scale, num_rows * scale)
_, axes = d2l.plt.subplots(num_rows, num_cols, figsize=figsize)
axes = axes.flatten()
for i, (ax, img) in enumerate(zip(axes, imgs)):
if torch.is_tensor(img):
# 图片张量
ax.imshow(img.numpy())
else:
# PIL图片
ax.imshow(img)
ax.axes.get_xaxis().set_visible(False)
ax.axes.get_yaxis().set_visible(False)
if titles:
ax.set_title(titles[i])
# 将图像展示出来
d2l.plt.show()
return axes
# 取前18个试试效果
X, y = next(iter(data.DataLoader(mnist_train, batch_size=18)))
show_images(X.reshape(18, 28, 28), 2, 9, titles=get_fashion_mnist_labels(y))
# 读取小批量数据
batch_size = 256
def get_dataloader_workers(): # @save
"""使用4个进程来读取数据"""
return 4
train_iter = data.DataLoader(mnist_train, batch_size, shuffle=True,
num_workers=get_dataloader_workers())
# 测试读取速度
timer = d2l.Timer()
for X, y in train_iter:
continue
print(np.round(timer.stop(), 2), 'sec')
softmax的步骤:
其对应代码
def softmax(X):
X_exp = torch.exp(X)
partition = X_exp.sum(1, keepdim=True)
return X_exp / partition # 这里应用了广播机制
# softmax的回归模型实现
```
def net(X):
return softmax(torch.matmul(X.reshape((-1, W.shape[0])), W) + b)
```
- python语言的高级索引
---x[[a,b],[c,d]],相当于取出x[a,c]和x[b,d](基础知识有点忘记了)
补充:assert的使用
assert
是一个 Python 中的关键字,用于在代码中添加断言。其语法形式为assert expression, message
,其中expression
是一个条件表达式,如果该条件为False
,则会引发AssertionError
异常,同时输出message
,表示断言失败的原因。- 如:
assert train_loss < 0.5, train_loss
:此断言用于检查训练过程中的损失值是否小于 0.5,如果不满足该条件,则会引发断言异常,并输出当前的训练损失值train_loss
。
训练softmax回归循环模型与训练线性回归模型非常相似:先读取数据,再定义模型和损失函数,然后使用优化算法训练模型。