Uplift Model如何评估
因果推断技术在营销场景的主要应用就是基于Uplift Model来预测营销干预对个体转化概率的增益,通过增益大小识别营销敏感人群。增益大小,就是计算有干预 相对无干预的转化概率差异,即个体因果效应ITE(The Individual Treatment Effect)
由于Uplift Model中不可能同时观察到同一个体在不同干预策略下的响应,即无法获取单一个体的真实增益大小,无法直接利用分类和回归算法的评价指标去衡量模型的好坏。而Uplift Model的建模目标是利用模型对未见过的个体集合预估ITE,根据ITE的值排序,并对该集合中排序较高的部分施加干预。就是说,Uplift Model建模的目标不是为了获得更精准的ITE预测值,而是为了使ITE的排序更准。
如何评估Uplift Model的排序质量?相关论文给出,计算排序后的增量较大的个体集合计算累积增益收益(cumulative incremental gains),它的一个变体就是Qini曲线,如下图所示:
AUUC计算流程
Qini Curve与横坐标轴之间的面积,称为Area Under Uplift Curve,即AUUC。下面给出详细的AUUC计算流程:
Step1,测试集的所有测试样本喂入训练好的Uplift模型,输出Uplift Score。
Step2,根据Uplift Score,对所有测试样本降序排序。
Step3,进行分桶,每个桶的序号记为。
Step4,计算每个t的累计增益。
其中,表示分组中正样本数量,表示有干预, 表示无干预。表示有干预组的正样本的数量,再除以表示有干预组总的样本数量的。如果响应变量表示的是“样本是否转化”,则除以就表示干预组的转化率,除以就表示无干预组的转化率。 可以看到公式左边是干预组相对无干预组的转化率的增量,右边是样本的总数量,公式计算了干预组相对无干预组提升了多少转化。
Step5,求积分,计算Uplift Curve曲线下的面积。
Uplift Score越准对样本的排序越准,排序靠前的桶干预组和非干预组的差值越大,这表现为曲线的拱形。所以AUUC相对越高,就说明相对而言模型越好。
评估指标-扩展阅读
论文《Learning to Rank for Uplift Modeling》中总结了多种Uplift Model计算累积增量增益的指标变种:包括针对干预组和控制组 单独的评估、联合的评估,也包括为了处理干预组和控制组不平衡的 绝对样本数的增益计算、相对样本数的增益计算。这里对相关指标的公式细节不展开介绍,仅给出下表的相关公式形式,感兴趣的读者可以查阅论文。
关于Uplift模型评估指标的内容基本介绍完了,对相关主题感兴趣的读者欢迎留言交流讨论。感谢你看到这里,更多优质内容请关注瑞行AI公众号: