【AI】可解释机器学习1 - 线性回归模型

116 阅读2分钟

「这是我参与2022首次更文挑战的第22天,活动详情查看:2022首次更文挑战」。

实现机器学习可解释性的最简单方法,是只使用可解释机器学习模型来创建算法。线性回归、逻辑回归和决策树是常用的可解释模型。

下面,我们从最简单的线性回归模型开始解释。

线性回归模型

线性回归模型将目标预测为特征输入的加权和。表达式为:

y=β0+β1x1++βpxp+ϵy=\beta_{0}+\beta_{1}x_{1}+\ldots+\beta_{p}x_{p}+\epsilon

实例的预测结果是其 pp 个特征的加权和。βj\beta_{j} 表示学习到的特征权重或系数。第一个权重 β0\beta_0 称为截距,不与特征相乘。ϵ\epsilon 是我们犯的错误,即预测结果和实际结果之间的误差。

线性回归模型的最大优点是线性:它使估计过程变得简单,最重要的是,这些线性方程在模块级(即权重)上具有易于理解的解释。

估计最佳权重

可以使用各种方法来估计最佳权重。

比如,最小二乘法通常用于找出使实际结果和估计结果之间的平方差最小化的权重:

β^=arg ⁣minβ0,,βpi=1n(y(i)(β0+j=1pβjxj(i)))2\hat{\boldsymbol{\beta}}=\arg\!\min_{\beta_0,\ldots,\beta_p}\sum_{i=1}^n\left(y^{(i)}-\left(\beta_0+\sum_{j=1}^p\beta_jx^{(i)}_{j}\right)\right)^{2}

解释性

线性回归模型中权重的解释取决于相应特征的类型。

  • 数字特征:将数字特征增加一个单位,会根据其权重更改估计结果
  • 二值特性:将特征从参考类别更改为其他类别,会根据特征的权重更改估计结果
  • 具有多个类别的分类特征:处理多个类别的解决方案是独热编码,这意味着每个类别都有自己的二进制列,每个类别的解释与二值特性的解释相同
  • 截距 β0\beta_0 :截距是"恒定特征"的特征权重,对于所有实例,该权重始终为 11。对于所有数值特征值为零且分类特征值位于参考类别的实例,模型预测为截距权重,截距反映了实例的预测结果。

线性模型不能产生最佳解释。它们是解释是相对的,即参考实例是一个数据点,其中所有数字特征为零,分类特征位于其参考类别。这通常是一个人工的、无意义的实例,在真实数据中不太可能出现。

只要线性方程是特征和结果之间关系的合适模型,线性模型就能做出真实的解释。非线性和相互作用越多,线性模型就越不准确,解释也就越不真实。线性使解释更一般、更简单。