动手学习深度学习5 |softmax回归

77 阅读2分钟

回归与分类

  • 回归估计一个连续值(房价预测
  • 分类预测一个离散类别(手写数字识别

截屏2023-10-20 10.19.55.png

softmax回归是一种用于多分类问题的分类算法

  • 本质是把全连接层输出转换成概率序列

截屏2023-10-20 10.20.39.png

用one-hot编码法对类别进行编码
one-hot编码是将每个类别用一个只含有 0 和 1 的向量来表示,向量的长度等于类别的总数

类别分类与网络架构

假设将一个2*2灰度图像,每个灰度值作为特征值,有4个特征值,3个类别,就需12个标量表示权重,3个标量表示偏置,就像方程组: 截屏2023-10-23 14.12.22.png 已经用式子表示出了类别预测,用矩阵表示权重W,用向量表示特征X和偏置b:

o=WX+b

softmax运算的作用就是将原始输出转换为概率分布后输出。保留向量中每个元素的相对大小,并转换为总和为1的概率分布。 截屏2023-10-23 14.18.59.png

交叉熵损失

交叉熵用来进行两个不同模型的运算。代表一个系统的混乱程度。
举个例子,用信息量定义f(x),信息量是衡量从不确定到确定的难度。要同时满足f(x1·x2)=f(x1)+f(x2)就需要log函数,概率越小信息量越多,而要衡量一个系统的信息量,需要用对系统贡献的信息量作为比例与信息量相乘,将所有信息量相加,就是期望。一个概率系统的期望就是熵 相对熵:是信息论中衡量两个概率分布之间差异的度量,比较两个概率分布之间的相似性或差异程度 截屏2023-10-23 14.51.37.png 交叉熵越小表示两个概率模型越相近

截屏2023-10-23 14.54.07.png n表示训练时用的照片数量,比较的模型是人脑模型,yi表示的是多像猫的程度。


损失函数

L2 Loss

截屏2023-10-23 15.02.21.png 蓝色表示y=0时变换y'的函数图像,橙色表示损失函数梯度。我们是对负梯度方向更新参数,当离原点远时用较大的梯度更新参数

L1 Loss

截屏2023-10-23 15.07.39.png 优点:稳定,当预测值和损失值相隔远,梯度依旧是常数;
缺点:零点处不可导,零点处梯度有剧烈变化,可能不稳定

Huber's Robust Loss

截屏2023-10-23 15.09.24.png


参考链接:juejin.cn/post/724901… 参考视频:www.bilibili.com/video/BV15V…