Deep Counterfactual Networks with Propensity-Dropout

481 阅读3分钟

Deep Counterfactual Networks with Propensity-Dropout

简述

原文链接:arxiv.org/pdf/1706.05…
github:github.com/Shantanu481…

作者把causal inference视作multitask learning的问题,并通过dropout的方式来进行正则化,减少selection bias带来的影响。这种正则化通过估计每一个样本的propensity score,来调整网络的复杂度。本质上类似于propensity weighting的方法,只是更具有神经网络的风格。调整网络复杂度,会在propensity score较低的时候减少过拟合的风险,实现更好的泛化。
文章主要关注CATE(ITE),并且在binary treatment的场景下展开讨论。但是,可以模仿其他的multiple head的神经网络方法,迁移到multiple treatment的场景下。通过,Generalized Propensity Score,可以泛化文中提出的propensity score dropout。

方案

为了同时确保灵活性和样本效率,作者把因果推断问题看做多任务学习的问题,不同的counterfactual估计是不同的、却相关的任务。不同的干预意味着不同的任务,任务id和treatment id一一对应。如下图所示,左侧的potential outcome network具有多层共享网络来提升样本效率,因为通过不同treatment的数据共同训练了这些层,提取了共同的因素。而后续单独的输出网络,有保证了灵活性和独立性。相当于在T-learner和S-learner之间做了一个折中,也是很多神经网络处理不同treatment的惯常方式。
image.png

但是,这样的网络并不能纠正由混淆变量带来的偏差。类似IPW和其他传统的因果推断方法,作者也利用propensity score进行样本权重调节。只不过,调节不是发生在loss的权重上,而是改变网络的复杂程度。在propensity score比较极端(非常接近0或者1)的情况下,利用dropout,使得网络变得简单。在propensity score比较接近0.5的情况下,保持原来网络的复杂程度,这样可以充分利用,在不同干预下,特征分布重合度(overlap)较高的样本。这种权重调节,其实是减少了对具有极端propensity score样本的学习充分程度,是另一种意义上的降权。这样的降权,可以减少对selection bias的过度拟合,提升网络预测在不同counterfactual估计上的泛化能力。

作者定义Droupout Propensity(x) = 1 - \frac{\gamma}{2} - \frac{1}{2}H(\tilde{p}(x)), 其中0 \leq \gamma \leq 1H(p)是信息熵。这样当propensity score是0或者1的时候,dropout的值为1 - \frac{\gamma}{2},当propensity score是0.5的时候,dropout的值为\frac{1}{2} - \frac{\gamma}{2}。因此,propensity score更极端的样本具有更大的dropout的概率。

另外,整个网络是交替进行训练的,在训练的过程中,share网络会在每一个epoch中被充分训练,而不同干预的输出网络是每隔一个epoch单独训练的,每一个epoch都会采用propensity dropout。整个流程如下图所示,单数epoch左侧的outcome网络没有被训练,而双数epoch时右侧将不会被训练。

image.png

image.png

实验

image.png

image.png

参考

  1. zhuanlan.zhihu.com/p/599900230
  2. zhuanlan.zhihu.com/p/515581644…
  3. www.jianshu.com/p/ef89c803b…