【可解释性机器学习】Shapley Value

2021-11-15 4,149 阅读2分钟

1. 定义

一个特征在所有case情况下的贡献得分的平均值。

2. 解释

1.1 线性模型：

\hat{f}(x)=\beta_0+\beta_1x_1+...+\beta_px_p, j = 1,...,p

其中的 $x_j$ 是特征值， $\beta_j$ 是对应特征 $j$ 的权重值。则我们计算预测值 $\hat{f}(x)$ 特征 $j$ 的贡献值 $\phi_j$ 是：

\phi_j(\hat{f})=\beta_jx_j-E(\beta_jX_j)=\beta_jx_j-\beta_jE(X_j)

其中 $E(\beta_jX_j)$ 是平均影响估计，贡献值是特征影响和平均影响的差值。在我们把一个样本的每个特征的贡献值求和的话是：

\sum_{j=1}^{p}\phi_j(\hat{f})=\sum_{j=1}^{p}(\beta_jx_j-E(\beta_jx_j))=(\beta_0-\sum_{j=1}^{p}\beta_jx_j)-(\beta_0-\sum_{j=1}^{p}E(\beta_jX_j))=\hat{f}(x)-E(\hat{f}(X))

所以可以推导为数据点x减去他的平均预测值。

1.2 Shapley值

博弈论理论中，Shapley value是一个针对所有机器学习模型的单个预测计算特征贡献值的解决方案。按照最开始的定义来推广到机器学习中，一个特征值的Shapley Value就是在所有可能特征值贡献情况下的赋权重，求和的支出。

\phi_j(val)=\sum_{S \subseteq \left \{ x_1,...x_p \right \} \backslash \left \{ x_j \right \} }\frac{\left | S \right |!(p-\left | S \right |-1)!}{p!}\left ( val(S\cup \left \{ x_j \right \}) -val(S)\right )

S是所有模型中使用特征的子集，x是将要被解释的一个样本的特征值的向量， $val_x(S)$ 是在子集S中特征值的预测值。

Shapley Value有四个性质：

有效性：特征贡献值是由预测值和预测值的平均值的差的累加。
对称性：如果在所有的情况中，两个特征值的贡献相同，那么他们的shapley值相等。
空值性（dummy）：如果一个特征不改变预测值，无论在哪种组合中，Shapley值都是0
可加性：两个shapley值可加。

2. 应用

1.3 对于单个特征的近似估计Shapley Value

用一个蒙特卡洛采样的方法来近似产生Shapley Value值。

\hat{\phi_j}=\frac{1}{M} \sum_{m=1}^{M}(\hat{f}(x_{+j}^m)-\hat{f}(x_{-j}^m))

算法步骤：

从 $m=1,...,M$
1. 从x中随机取样本z
2. 特征的随机排列o
3. 排序x： $x_o=(x_1,...,x_j,...,x_p)$
4. 排序z： $z_o=(z_1,...,z_j,...,z_p)$
5. 构造新的样本
  - 有特征j： $x_{+j}=(x_1,...,x_{j-1},x_j,z_{j+1}...,z_p)$
  - 无特征j： $x_{-j}=(x_1,...,x_{j-1},z_j,z_{j+1}...,z_p)$
6. 计算边缘贡献 $\phi_j^m=\hat{f}(x_{+j})-\hat{f}(x_{-j})$
计算平均Shapley Value： $\phi_j(x)=\frac{1}{M} \sum_{m=1}^{M}\phi_j^{m}$

3. 优缺点

3.1 优点

比较预测值和平均预测值的办法是一个比较公平分布的方法。
Shapley Value计算允许对比解释。
这个方法是有一个可靠理论支撑的（有效性，对称性，dummy，可加性）。
可以把预测解释为一个由特征参与的博弈现象。

3.2 缺点

计算时间长。
Shapley Value会被曲解。
- Shapley Value对于稀疏可解释性（包含的特征少）不可用。但是可以用LIME或者SHAP包（也是基于Shapley Value但是可以解决稀疏性问题）来解决
可用于非预测模型的状态变化。
必须要接触到数据。
对于非现实样本会影响其计算值。