【AI】可解释机器学习2 - 逻辑回归模型

122 阅读2分钟

「这是我参与2022首次更文挑战的第23天,活动详情查看:2022首次更文挑战」。

在上一篇文章(【AI】可解释机器学习1 - 线性回归模型)中,已经介绍了线性回归模型。这篇文章将介绍另一种可解释机器学习模型:逻辑回归模型。

线性回归模型的局限

线性模型不输出概率,而是将类视为数字(0和1),并拟合使点与超平面之间的距离最小化的最佳超平面(对于单个特征,则是一条直线)。所以它只是在点之间插值,不能把它解释为概率。

由于预测结果不是概率,而是点之间的线性插值,因此没有可以用于区分一类与另一类的有意义的阈值。

逻辑回归模型

逻辑回归模型不是拟合直线或超平面,而是使用逻辑函数来得到值为 [0,1][0,1] 的线性方程的输出。

逻辑函数定义为:

logistic(η)=11+exp(η)\text{logistic}(\eta)=\frac{1}{1+exp(-\eta)}

回顾一下线性回归模型,它用线性方程对结果和特征之间的关系进行建模:

y=β0+β1x1++βpxp+ϵy=\beta_{0}+\beta_{1}x_{1}+\ldots+\beta_{p}x_{p}+\epsilon

对于逻辑回归模型,我们希望得到值为 [0,1][0,1] 的线性方程的输出,因此可以将等式的右侧包装到逻辑函数中:

P(y=1)=11+exp((β0+β1x1++βpxp))P(y=1)=\frac{1}{1+exp(-(\beta_{0}+\beta_{1}x_{1}+\ldots+\beta_{p}x_{p}))}

解释

逻辑回归中权重的解释不同于线性回归中权重的解释,因为逻辑回归中的结果是值为 [0,1][0,1] 的概率,权重不再线性影响概率。

因此,我们需要重新制定用于解释的方程,以便只有线性项位于公式的右侧。

log(P(y=1)1P(y=1))=log(P(y=1)P(y=0))=β0+β1x1++βpxpP(y=1)1P(y=1)=exp(β0+β1x1++βpxp)log\left(\frac{P(y=1)}{1-P(y=1)}\right)=log\left(\frac{P(y=1)}{P(y=0)}\right)=\beta_{0}+\beta_{1}x_{1}+\ldots+\beta_{p}x_{p} \\ \frac{P(y=1)}{1-P(y=1)}=exp\left(\beta_{0}+\beta_{1}x_{1}+\ldots+\beta_{p}x_{p}\right)

当某个特征值增加 1 的时候,预测值变化为:

exp(β0+β1x1++βj(xj+1)++βpxp)exp(β0+β1x1++βjxj++βpxp)\frac{exp\left(\beta_{0}+\beta_{1}x_{1}+\ldots+\beta_{j}(x_{j}+1)+\ldots+\beta_{p}x_{p}\right)}{exp\left(\beta_{0}+\beta_{1}x_{1}+\ldots+\beta_{j}x_{j}+\ldots+\beta_{p}x_{p}\right)}

由于 exp(a)exp(b)=exp(ab)\frac{exp(a)}{exp(b)}=exp(a-b) ,所以上面的式子等于:

exp(βj(xj+1)βjxj)=exp(βj)exp\left(\beta_{j}(x_{j}+1)-\beta_{j}x_{j}\right)=exp\left(\beta_j\right)

所以,当特征值发生一个单位的变化时,会以权重的对数比增加相应权重的值。

这也是逻辑回归模型的一个缺点,它的解释更困难,因为权重的解释是乘法而不是加法。

逻辑回归模型不仅是一个分类模型,而且还提供了概率。与只能提供最终分类结果的模型相比,这是一个很大的优势。