跟李沐学AI随记-3-基础知识

31 阅读3分钟

SOFTMAX回归

基本概念回顾:

  • 回归---估计一个连续值
  • 分类---预测一个离散类别

softmax回归:实质是一个多类分类问题,得到对于每个类的预测置信度,并使用交叉熵来衡量预测和标号之间的差异度

image.png

  • 为了解决分类问题---引入独热编码(one-hot encoding)。 独热编码是一个向量,它的分量和类别一样多。 类别对应的分量设置为1,其他所有分量设置为0。

尽管softmax是一个非线性函数,但softmax回归的输出仍然由输入特征的仿射变换决定。 因此,softmax回归是一个线性模型(linear model)。

实例--Fashion_MNIST

import torch
import torchvision
from torch.utils import data
from torchvision import transforms
from d2l import torch as d2l
import numpy as np

# 用svg格式显示图片
d2l.use_svg_display()

# 通过ToTensor实例将图像数据从PIL类型变换成32位浮点数格式,
# 并除以255使得所有像素的数值均在0~1之间

trans = transforms.ToTensor()

# 划分训练集和测试集
mnist_train = torchvision.datasets.FashionMNIST(
    root="../data", train=True, transform=trans, download=True)
mnist_test = torchvision.datasets.FashionMNIST(
    root="../data", train=False, transform=trans, download=True)

print(len(mnist_train))


def get_fashion_mnist_labels(labels):
    """返回Fashion-MNIST数据集的文本标签"""
    text_labels = ['t-shirt', 'trouser', 'pullover', 'dress', 'coat',
                   'sandal', 'shirt', 'sneaker', 'bag', 'ankle boot']
    return [text_labels[int(i)] for i in labels]


def show_images(imgs, num_rows, num_cols, titles=None, scale=1.5):  # @save
    """绘制图像列表"""
    figsize = (num_cols * scale, num_rows * scale)
    _, axes = d2l.plt.subplots(num_rows, num_cols, figsize=figsize)
    axes = axes.flatten()
    for i, (ax, img) in enumerate(zip(axes, imgs)):
        if torch.is_tensor(img):
            # 图片张量
            ax.imshow(img.numpy())
        else:
            # PIL图片
            ax.imshow(img)
        ax.axes.get_xaxis().set_visible(False)
        ax.axes.get_yaxis().set_visible(False)
        if titles:
            ax.set_title(titles[i])
    # 将图像展示出来
    d2l.plt.show()
    return axes


# 取前18个试试效果
X, y = next(iter(data.DataLoader(mnist_train, batch_size=18)))
show_images(X.reshape(18, 28, 28), 2, 9, titles=get_fashion_mnist_labels(y))

# 读取小批量数据
batch_size = 256


def get_dataloader_workers():  # @save
    """使用4个进程来读取数据"""
    return 4


train_iter = data.DataLoader(mnist_train, batch_size, shuffle=True,
                             num_workers=get_dataloader_workers())
# 测试读取速度
timer = d2l.Timer()
for X, y in train_iter:
    continue
print(np.round(timer.stop(), 2), 'sec')

softmax的步骤:

image.png 其对应代码

def softmax(X):
    X_exp = torch.exp(X)
    partition = X_exp.sum(1, keepdim=True)
    return X_exp / partition  # 这里应用了广播机制
    
# softmax的回归模型实现
```
def net(X):
    return softmax(torch.matmul(X.reshape((-1, W.shape[0])), W) + b)
```
  • python语言的高级索引

image.png

---x[[a,b],[c,d]],相当于取出x[a,c]和x[b,d](基础知识有点忘记了)

补充:assert的使用

  • assert 是一个 Python 中的关键字,用于在代码中添加断言。其语法形式为 assert expression, message,其中 expression 是一个条件表达式,如果该条件为 False,则会引发 AssertionError 异常,同时输出 message,表示断言失败的原因。
  • 如: assert train_loss < 0.5, train_loss:此断言用于检查训练过程中的损失值是否小于 0.5,如果不满足该条件,则会引发断言异常,并输出当前的训练损失值 train_loss

训练softmax回归循环模型与训练线性回归模型非常相似:先读取数据,再定义模型和损失函数,然后使用优化算法训练模型。