【AI】可解释机器学习3 - 广义线性模型 (GLM) 和广义加性模型 (GAM)

2,627 阅读3分钟

「这是我参与2022首次更文挑战的第24天,活动详情查看:2022首次更文挑战」。

线性回归模型最大的优点,同时也是最大的弱点,是预测被建模为特征的加权和。

此外,线性模型有三个假设:

  1. 结果呈高斯分布
  2. 特征间无相互作用
  3. 特征间呈线性关系

然而所有这些假设,在现实中经常不成立。为了解决这一问题,我们需要引入其他模型。

广义线性模型 GLMs

对于 给定特征的目标结果 $y$ 不遵循高斯分布 的情况,我们可以使用广义线性模型(GLMs)。

任何 GLM 的核心概念是:保持特征的加权和,但允许非高斯分布的结果。并通过一个可能的非线性函数,将该分布的预期均值和加权和连接起来。

其表达式为:

g(EY(yx))=β0+β1x1+βpxpg(E_Y(y|x))=\beta_{0}+\beta_{1}x_{1}+\ldots\beta_{p}x_{p}

例如,逻辑回归模型假设结果为伯努利分布,并使用逻辑函数将预期均值和加权和联系起来。经典线性模型是 GLM 的一个特例。经典线性模型中高斯分布的链接函数就是恒等函数。

广义加性模型 GAM

对于 特征间不呈线性关系 的情况,我们可以使用广义加性模型(GAMs)。

GAM 放宽了关系必须是简单加权和的限制,而是假设结果可以由每个特征的任意函数的总和建模。即:

g(EY(yx))=β0+f1(x1)+f2(x2)++fp(xp)g(E_Y(y|x))=\beta_0+f_1(x_{1})+f_2(x_{2})+\ldots+f_p(x_{p})

GAM 的核心仍然是特征效果的总和,但可以选择允许某些特征与输出之间存在非线性关系。

那么,如何学习这些非线性函数呢?答案称为 样条。样条是可以组合以逼近任意函数的函数。GAM 估计这些样条权重,还为权重引入了惩罚项,以使它们接近于零。这有效地降低了样条的灵活性并减少了过拟合。

包含交互作用

我们再来解决不成立假设的第2点: 特征间有相互作用

我们可以通过向特征矩阵添加一列代表特征之间的交互作用,并照常拟合模型。该解决使得我们不需要对线性模型进行任何更改,只需要在数据中添加额外的列。

比如对于相互作用的特征 x1=0.6x_1 = 0.6x2=0.3x_2=0.3,可以通过添加一个新的特征 xnew=0.6×0.3=0.18x_{new}=0.6 \times 0.3 = 0.18 来表示这两个特征的相互作用。

缺点

广义线性模型 (GLM) 和广义加性模型 (GAM) 的引入解决了一些特征假设方面的问题,但同时也带来了一些缺点。

线性模型的大多数修改使模型的可解释性降低。GLM 中任何不是恒等函数的链接函数都会使解释复杂化;相互作用也使解释复杂化;非线性特征效果要么不那么直观(如对数变换),要么不能再用一个数字来概括(如样条函数)。