持续创作，加速成长！这是我参与「掘金日新计划 · 10 月更文挑战」的第3天，点击查看活动详情

1.1 Softmax函数简介

oftmax函数本质也为激活函数，主要用于多分类问题，且要求分类互斥，分类器最后的输出单元需要Softmax 函数进行数值处理。

Tip：在搭建网络模型的时候，需要用Softmax将目标分成几个，则在最后一层放几个节点

1.1.1Softmax函数构成

C为：分类的类别数

1.1.2 Softmax傻瓜式解释

将所有的值用e的n次方计算出来，求和之后计算每一个值的占比，保证其和为100%，即为概率

Tip：若多分类任务中的每个类之间不是互斥，则将其转化为多个二分类来组成

1.2 Softmax函数的原理剖析

Softmax函数用于将分类结果归一化，形成一个概率分布。作用类似于二分类中的Sigmoid函数。

对于一个k维向量z，我们想把这个结果转换为一个k个类别的概率分布p(z)。softmax可以用于实现上述结果，具体计算公式为：

对于k维向量z来说，其中zi∈R，我们使用指数函数变换可以将元素的取值范围变换到(0,+∞),之后我们再所有元素求和将结果缩放到[0,1],形成概率分布。

常见的其他归一化方法，如max-min、z-score方法并不能保证各个元素为正，且和为1。

1.3 Softmax代码部分

1.3.1 常用的Softmax结构


torch.nn.Softmax(dim)	计算Softmax，参数代表计算维度
torch.nn.Softmax2d()	对每个图片进行Softmax处理
torch.nn.LogSoftmax(logits,name=None)	对Softmax取对数，常与NULLLoss联合使用，实现交叉熵损失的计算

1.3.2 Softmax代码实现

import torch

#定义模拟数据
# logits：神经网络的计算结果，一共两个数据，每个数据的结果中包括三个数值，其为三个分类的结果
logits = torch.autograd.Variable(torch.tensor([[2,0.5,6],[0.1,0,3]]))
# labels：神经网络的计算结果对应的标签，每个数值代表一个数据分类的编号，且相互互斥
labels = torch.autograd.Variable(torch.LongTensor([2,1]))
print(logits)
# 输出 tensor([[2.0000, 0.5000, 6.0000],[0.1000, 0.0000, 3.0000]])
print(labels)
# 输出 tensor([2, 1])

#计算 Softmax
print('Softmax：',torch.nn.Softmax(dim=1)(logits))
# 输出 Softmax： tensor([[0.0179, 0.0040, 0.9781],[0.0498, 0.0451, 0.9051]])

### LogSoftmax() + NULLoss() = CrossEntropyLoss()
#计算 LogSoftmax：对Softmax取对数
logsoftmax = torch.nn.LogSoftmax(dim=1)(logits)
print('LogSoftmax：',logsoftmax)
# 输出 LogSoftmax： tensor([[-4.0222, -5.5222, -0.0222],[-2.9997, -3.0997, -0.0997]])
#计算 NULLoss
output = torch.nn.NLLLoss()(logsoftmax,labels)
print('NULLoss：',output)
# 输出 NULLoss： tensor(1.5609)

#计算 CrossEntropyLoss
CrossEntropyLoss_return = torch.nn.CrossEntropyLoss()(logits,labels)
print('CrossEntropyLoss：',CrossEntropyLoss_return)
# 输出 CrossEntropyLoss： tensor(1.5609)

2.1. softmax回归

回归可以用于预测多少的问题。比如预测房屋被售出价格，或者棒球队可能获得的胜场数，又或者患者住院的天数。

事实上，我们也对分类问题感兴趣：不是问“多少”，而是问“哪一个”：

某个电子邮件是否属于垃圾邮件文件夹？
某个用户可能注册或不注册订阅服务？
某个图像描绘的是驴、狗、猫、还是鸡？
某人接下来最有可能看哪部电影？

通常，机器学习实践者用分类这个词来描述两个有微妙差别的问题：\

我们只对样本的“硬性”类别感兴趣，即属于哪个类别；\

我们希望得到“软性”类别，即得到属于每个类别的概率。这两者的界限往往很模糊。其中的一个原因是：即使我们只关心硬类别，我们仍然使用软类别的模型。

2.1.1. 分类问题

我们从一个图像分类问题开始。假设每次输入是一个2×2的灰度图像。我们可以用一个标量表示每个像素值，每个图像对应四个特征x1,x2,x3,x4。此外，假设每个图像属于类别“猫”，“鸡”和“狗”中的一个。
编辑

接下来，我们要选择如何表示标签。我们有两个明显的选择：最直接的想法是选择y∈{1,2,3} ，其中整数分别代表 {狗,猫,鸡} 。这是在计算机上存储此类信息的有效方法。如果类别间有一些自然顺序，比如说我们试图预测 {婴儿,儿童,青少年,青年人,中年人,老年人} ，那么将这个问题转变为回归问题，并且保留这种格式是有意义的。
编辑

幸运的是，一般的分类问题并不与类别之间的自然顺序有关。统计学家很早以前就发明了一种表示分类数据的简单方法：独热编码（one-hot encoding）。独热编码是一个向量，它的分量和类别一样多。类别对应的分量设置为1，其他所有分量设置为0。
在我们的例子中，标签y将是一个三维向量，其中(1,0,0)对应于“猫”、(0,1,0)对应于“鸡”、(0,0,1)对应于“狗”：

2.1.2. 网络架构

为了估计所有可能类别的条件概率，我们需要一个有多个输出的模型，每个类别对应一个输出。为了解决线性模型的分类问题，我们需要和输出一样多的仿射函数（affine function）。每个输出对应于它自己的仿射函数。在我们的例子中，由于我们有4个特征和3个可能的输出类别，我们将需要12个标量来表示权重（带下标的w）， 3个标量来表示偏置（带下标的b）。下面我们为每个输入计算三个未规范化的预测（logit）：o1、o2和o3。

编辑

我们可以用神经网络图下来描述这个计算过程。与线性回归一样，softmax回归也是一个单层神经网络。由于计算每个输出o1、o2和o3取决于所有输入x1、x2、x3和x4，所以softmax回归的输出层也是全连接层。

编辑

为了更简洁地表达模型，我们仍然使用线性代数符号。通过向量形式表达为o=Wx+b，这是一种更适合数学和编写代码的形式。由此，我们已经将所有权重放到一个3×4矩阵中。对于给定数据样本的特征x，我们的输出是由权重与输入特征进行矩阵-向量乘法再加上偏置b得到的。

2.1.3. 全连接层的参数开销

正如我们将在后续章节中看到的，在深度学习中，全连接层无处不在。全连接层是“完全”连接的，可能有很多可学习的参数。具体来说，对于任何具有d个输入和q个输出的全连接层，参数开销为O(dq)，这个数字在实践中可能高得令人望而却步。幸运的是，将d个输入转换为q个输出的成本可以减少到O(dqn)，其中超参数n可以由我们灵活指定，以在实际应用中平衡参数节约和模型有效性。

【Pytorch神经网络理论篇】 08 Softmax函数（处理分类问题）