评分模型相关
证据权重WOE(Weight Of Evidence)
WOE是一种对自变量编码的方法,需注意的是在WOE编码前需对数据进行分箱(分组或离散化)操作。 对于特征每个分组的WOE值计算公式如下:
Woe(i) = ln( [py(i)] / [pn(i)] )
Woe(i) = ln( [y(i)/y(T)] / [n(i)/n(T)])
Woe(i) = ln( [y(i)/n(i)] / [y(T)/n(T)])
公式中: py(i):分组i中正样本(目标列Y=1)占所有正样本的比例
pn(i):分组i中负样本(目标列Y=0)占所有负样本的比例
y(i):分组i中正样本数量
n(i):分组i中负样本数量
y(T):所有正样本数量
n(T):所有负样本数量
WOE即分组内正负占比与样本整体正负占比的差异。
WOE越大则代表这种差异越大,这个分箱内的样本响应的可能性就越高;
WOE越小则代表这种差异越小,这个分箱内的样本响应的可能性就越低。
例 在对数据分组后计算每个分箱的WOE值:
根据WOE对每个分箱的计算公式计算得出WOE值:
WOE的单调性
由于评分卡通常采用线性分类器Logistics Regression,入模数据最好呈现单调性。
因此,在计算出每个分箱的WOE值后,需同时校验训练数据和测试的WOE是否呈现单调性。
若非单调且在业务中无法解释(如随着年龄的增长,体能的变化呈现“∩”形),需要修改或合并分箱,从而使WOE呈现单调。
所有的处理 都是为了让分箱后的WOE值整体如上表中的“年龄”在分箱后WOE呈现单调。
2 IV(Information Value 信息量)
IV是评分卡模型中的一个常见指标,在金融评分卡常用于衡量自变量对因变量预测能力的指标。基本思想是根据该特征所命中正负样本的比率与总正负样本的比率,来对比和计算其关联程度。 具体而言,对于特征每个分箱的IV值计算公式如下:
IV(i) = (py(i) - pn(i))*WOE(i)
IV(i) = ( [y(i)/y(T)] - [n(i)/n(T)])*ln( [y(i)/y(T)] / [n(i)/n(T)])
特征的 IV 值即为所有分箱的 IV 值相加,计算公式如下:
IV = Σ(bins,i=1)IV(i)
其中,bins为变量分组个数。 从IV的计算公式可见,对于分箱中正样本和负样本的比例与样本整体正样本和负样本的比例相差越大,IV值越大; 否则,IV值越小。金融风控场景中,通过IV进行特征筛选的评价标准如下:
举例说明
根据IV对每个分箱的计算公式,在计算出WOE值的基础上,得出IV值,计算如下:
3 Python实现注意事项
为防止WOE计算时log计算错误,需在计算箱内占比时,即WOE公式中的py(i)和pn(i),对组内正样本数和负样本数加1,即:y(i)+1,n(i)+1。