CrossEntropyLoss和NLLLoss和KLDivLoss

看名字可能感觉这三个Loss不搭嘎。

NLLLoss的全称是Negative Log Likelihood Loss,中文名称是最大似然或者log似然代价函数。

CrossEntropyLoss是交叉熵代价函数。

KLDivLoss是Kullback-Leibler divergence Loss。

NLLLoss

似然函数是什么呢？

似然函数就是我们有一堆观察所得得结果，然后我们用这堆观察结果对模型的参数进行估计。举个例子，一个硬币，它有θ的概率会正面向上，有1-θ的概率反面向上。但是我们不知道θ是多少，这个θ就是模型的参数。

我们为了获得θ的值，我们抛了十次，得到一个序列x=正正反反正反正正正正，获得这个序列的概率是θ⋅θ⋅(1-θ)⋅(1-θ)⋅θ⋅(1-θ)⋅θ⋅θ⋅θ⋅θ = θ⁷ (1-θ)³,我们尝试所有θ可能的值，绘制了一个图（θ的似然函数）

我们发现这个函数有最大值，当θ=0.7的时候，得到这个序列的概率最大，当我们实验的次数越来越多，这个最大值约接近真实值0.5。

似然函数用于模型的损失函数？

如果似然函数用于模型的损失函数，那么情况又是如何的呢？

损失函数的用途是衡量当前参数下模型的预测值和真实label的差距。似然函数损失函数当然也是如此。

什么时候使用？

分类
更快的训练
简单的任务

此时的观察值就是每次模型的预测值，而参数不是模型的参数，而是真实的label。

聪明的你可能已经想到了，这里少了一个东西，就上面的例子来说，我们知道抛硬币是一个贝努利分布，这样我们得到一组观察值就能构建似然函数，求出参数值。但我们怎么知道真实label的分布是一个什么分布呢？

对于分类任务来讲，label的分布式其实就是贝努利分布！（或者贝努利分布的推广，多项式分布） 看一下贝努利分布，体会一下 $p^x(a-p)^{a-x}$ 其实就是后面的分段函数。

f_X(x)=p^x(1-p)^{1-x}= \left\{
\begin{array}\\
p & if & x=1,\\
1-p &if & x=0.
\end{array}\right.

拓展为多项式分布，即是：

f_X(p)=\prod_{i=1}^Cp_i^{x_i}= \left\{
\begin{array}\\
p_i & if & x_i=1 其他x为0,\\
…….
\end{array}\right.

更加一般的，例如p=[0.1, 0.1, 0.7, 0.1]，x=[0,0,1,0]

当p=x的时候，得到最大值1。

我们的目标就是最大化似然函数了，也就是最小化负的似然函数。

而通常来说，对于累乘的结构，我们都要对数化，变成累加的形式好计算。

最后我们的loss function结构就是：

? loss(p,x)= - \sum\ x * \ log(p) ?