机器学习中的损失函数

967 阅读1分钟

本文已参与「新人创作礼」活动,一起开启掘金创作之路。

0. 前言

损失函数一般表示为L(f,f(x))L(f,f(x)),用以衡量真实值yy和预测值f(x)f(x)之间不一致的程度。在回归为重,一般

1. logit模型

1.1. Odds

Odds和概率都用来描述某件事情发生的可能性,区别在于概率描述的是事件A出现的次数与所有可能的结果出现的次数之比,Odds描述的是事件A发生的概率与事件A不发生的概率之比。显然,概率的区间是[0,1][0,1],Odds的区间是[0,+][0,+\infty]

1.2. logit模型

logit可以理解成log-it(即it的自然对数,这里的it指的就是Odds)。logit变换是从概率POddsLogitP\rightarrow Odds\rightarrow Logit的一个变换,数学形式为ln(Pi1Pi)ln\left(\frac{P_i}{1-P_i}\right)。取对数是为了防止数值太大或太小,并且可以让取值由[0,+][0,+\infty]映射到[,+][-\infty,+\infty]。 为什么要用logit模型对概率建模呢?如果要对一个变量建模,最简单的就是线性回归模型,例如:Y=β0+βX,Y[,+]Y=\beta _0+\beta X,Y \in [-\infty,+\infty]。但是概率是[0,1][0,1]的,无法直接用线性回归来对概率建模。如果用logit模型对概率进行一个变换,则可以用线性模型来表示概率了。

ln(Pi1Pi)=β0+β1x1+β2x2++βnxn(1-1)ln\left(\frac{P_i}{1-P_i}\right)=\beta _0+\beta _1x_1+\beta _2 x_2+\cdots+\beta _n x_n \tag{1-1}

由上式可以得到概率PiP_i的表达式:

Pi=11+e(β0+β1x1+β2x2++βnxn)(1-2)P_i=\frac{1}{1+e^{-(\beta _0+\beta _1x_1+\beta _2 x_2+\cdots+\beta _n x_n)}} \tag{1-2}

这也是为什么机器学习/深度学习里面喜欢用sigmoid模型来对概率建模的原因。