「这是我参与2022首次更文挑战的第24天,活动详情查看:2022首次更文挑战」。
线性回归模型最大的优点,同时也是最大的弱点,是预测被建模为特征的加权和。
此外,线性模型有三个假设:
- 结果呈高斯分布
- 特征间无相互作用
- 特征间呈线性关系
然而所有这些假设,在现实中经常不成立。为了解决这一问题,我们需要引入其他模型。
广义线性模型 GLMs
对于 给定特征的目标结果 $y$ 不遵循高斯分布 的情况,我们可以使用广义线性模型(GLMs)。
任何 GLM 的核心概念是:保持特征的加权和,但允许非高斯分布的结果。并通过一个可能的非线性函数,将该分布的预期均值和加权和连接起来。
其表达式为:
例如,逻辑回归模型假设结果为伯努利分布,并使用逻辑函数将预期均值和加权和联系起来。经典线性模型是 GLM 的一个特例。经典线性模型中高斯分布的链接函数就是恒等函数。
广义加性模型 GAM
对于 特征间不呈线性关系 的情况,我们可以使用广义加性模型(GAMs)。
GAM 放宽了关系必须是简单加权和的限制,而是假设结果可以由每个特征的任意函数的总和建模。即:
GAM 的核心仍然是特征效果的总和,但可以选择允许某些特征与输出之间存在非线性关系。
那么,如何学习这些非线性函数呢?答案称为 样条。样条是可以组合以逼近任意函数的函数。GAM 估计这些样条权重,还为权重引入了惩罚项,以使它们接近于零。这有效地降低了样条的灵活性并减少了过拟合。
包含交互作用
我们再来解决不成立假设的第2点: 特征间有相互作用。
我们可以通过向特征矩阵添加一列代表特征之间的交互作用,并照常拟合模型。该解决使得我们不需要对线性模型进行任何更改,只需要在数据中添加额外的列。
比如对于相互作用的特征 和 ,可以通过添加一个新的特征 来表示这两个特征的相互作用。
缺点
广义线性模型 (GLM) 和广义加性模型 (GAM) 的引入解决了一些特征假设方面的问题,但同时也带来了一些缺点。
线性模型的大多数修改使模型的可解释性降低。GLM 中任何不是恒等函数的链接函数都会使解释复杂化;相互作用也使解释复杂化;非线性特征效果要么不那么直观(如对数变换),要么不能再用一个数字来概括(如样条函数)。