回归与分类
- 回归估计一个连续值(房价预测
- 分类预测一个离散类别(手写数字识别
softmax回归是一种用于多分类问题的分类算法
- 本质是把全连接层输出转换成概率序列
用one-hot编码法对类别进行编码
one-hot编码是将每个类别用一个只含有 0 和 1 的向量来表示,向量的长度等于类别的总数。
类别分类与网络架构
假设将一个2*2灰度图像,每个灰度值作为特征值,有4个特征值,3个类别,就需12个标量表示权重,3个标量表示偏置,就像方程组:
已经用式子表示出了类别预测,用矩阵表示权重W,用向量表示特征X和偏置b:
o=WX+b
softmax运算的作用就是将原始输出转换为概率分布后输出。保留向量中每个元素的相对大小,并转换为总和为1的概率分布。
交叉熵损失
交叉熵用来进行两个不同模型的运算。熵代表一个系统的混乱程度。
举个例子,用信息量定义f(x),信息量是衡量从不确定到确定的难度。要同时满足f(x1·x2)=f(x1)+f(x2)就需要log函数,概率越小信息量越多,而要衡量一个系统的信息量,需要用对系统贡献的信息量作为比例与信息量相乘,将所有信息量相加,就是期望。一个概率系统的期望就是熵
相对熵:是信息论中衡量两个概率分布之间差异的度量,比较两个概率分布之间的相似性或差异程度
交叉熵越小表示两个概率模型越相近
n表示训练时用的照片数量,比较的模型是人脑模型,yi表示的是多像猫的程度。
损失函数
L2 Loss
蓝色表示y=0时变换y'的函数图像,橙色表示损失函数梯度。我们是对负梯度方向更新参数,当离原点远时用较大的梯度更新参数
L1 Loss
优点:稳定,当预测值和损失值相隔远,梯度依旧是常数;
缺点:零点处不可导,零点处梯度有剧烈变化,可能不稳定
Huber's Robust Loss
参考链接:juejin.cn/post/724901… 参考视频:www.bilibili.com/video/BV15V…