Estimating Individual Treatment Effect Generalization Bounds and Algorithms

126 阅读2分钟

Estimating Individual Treatment Effect Generalization Bounds and Algorithms

简述

原文链接:arxiv.org/abs/1606.03…
github:github.com/clinicalml/…
上一篇文章回顾:juejin.cn/post/720695…
这篇文章在上一篇的基础上提出了泛化误差界限,显示ecpected ITE estimation error of a representation受标准泛化误差总和以及由representation引起的treated distribution和control distribution之间的距离的限制。这个距离不再是上文的discrepancy distance,而是采用了联合分布差异Integral Probobility Metrics(IPM)来衡量,在这篇文章中为Maximum Mean Discrpancy和the Wasserstein distance。

方案

image.png 上图为这篇文章提出的神经网络架构,和上篇文章基本相同。改变之处在于网络中ϕ(x)\phi(x)h(x)h(x)都是非线性模型,因此学习到的表征可以是高维的,从而增加t对h的影响。以下是系统的损失函数:

image.png

第一项和上篇文章一样是神经网络拟合的loss,这里的weight w不是由网络更新获得的,它是treatment group数量差异的补偿。

第二项是模型复杂度的正则化惩罚。第三项是对representation imbalace的修正,其中超参数α\alpha代表我们的目标对representation ϕ\phi的缩放的敏感程度,用来控制修正的力度。当α>0\alpha>0时,模型称为Counterfactual Regression(CFR)。当 α=0\alpha=0时,模型没有平衡正则项变成了Treatment-Agnostic Representation Network(TARNet)。两种模型都是通过随机梯度下降的方法去实现最小化。

实验

在实验方面除了选择IHPD数据集外,还选择了包含随机和非随机成分的”Job“数据集。其中,两种成分都进行训练,但在进行评估时只选择随机成分。结果如下所示:

image.png within-sample表示可观察到的ITE结果(factual outcome),相反without-sample表示不可观察到的units ITE结果(conterfactual outcome)。数值越低越好。

参考

  1. zhuanlan.zhihu.com/p/515581644
  2. zhuanlan.zhihu.com/p/425331915
  3. www.sohu.com/a/502239867…