Representation learning for treatment effect estimation from observational data

132 阅读6分钟

Representation learning for treatment effect estimation from observational data

简述

原文链接:par.nsf.gov/servlets/pu…
github:github.com/Osier-Yi/SI…

摘要

由于反事实的缺失及选择偏差,估计ITE是因果推断中具有挑战性的问题。已存在的ITE估计方法主要聚焦于平衡空白组和实验组的分布,而忽略了局部相似信息,而该相似信息在ITE估计中能提供有意义的限制。在本篇论文中,我们提出了一个基于深度表示学习的维持局部相似信息的ITE估计方法(SITE)。聚焦于每个mini-batch的困难样本,SITE同时会维持局部相似和平衡样本分布。不管是在人工合成数据还是真实数据中的实验都证明了提出的SITE相比当今最优秀的ITE估计方法具有优势。

引言

从观察数据中推断ITE面临着两个主要的挑战:反事实数据缺失和treatment选择偏差。ITE被定义是单个个体的实施treatment和不实施的结果变量期望之差,而现实样本中单个unit只能属于一个组,其反事实的组的数据是缺失的。从观察数据中推断样本反事实的结果是一个解决该问题的合理的方式。然和选择偏差使得实际上的反事实估计更难,比如说在非随机实验中,用户对于treatment具有不同的偏好,会导致各个组内具有显而易见的分布差异。分布的差异会进一步导致不准的反事实估计。

为了克服以上的挑战,一些传统ITE估计方法会把treatment当特征,然后训练回归模型来估计反事实结果。一些基于最近邻的方法会在训练集中寻找该样本最近的样本来当做其反事实结果,比如KNN,PSM和通过HSIC指标的最近邻匹配方法。此外一些基于树和森林的方法,把树和森林当做自适应最近邻指标,然后在叶子节点估计其treatment效果。最近基于表示学习的方法被提出用于反事实估计,这些方法主要是在最小化embedding空间中实验组和对照组的分布差异。SOTA 的ITE估计方法是在全局视角平衡实验组对照组的分布,然而他们忽略了局部相似信息。由于相似的样本应当具有相似的结果,因此在表示学习期间保留样本间的局部相似信息非常重要,这可以减少反事实估计中的泛化误差。 该点在基于最近邻的方法中被证实。不幸的是,在当前表示学习中,在平衡样本分布期间,局部相似也许不会被维持。另外一方面,基于最近邻的方法仅仅只考虑局部相似,不能全局平衡样本分布。我们提出的方法同时结合两者的优点。

在此篇论文中,我们提出了基于深度表示学习的维持局部相似的ITE估计方法(SITE)。SITE首先使用表示网络把每个mini-batch的样本从原始变量空间映射到隐空间。在隐空间中,SITE使用位置相关的深度度量指标(PDDM)来维持局部相似,同时使用中间点距离最小化(MPDM)策略来平衡数据分布。PDDM和MPDM可以被看作是一个正则项,用以学习更好的表示和降低在潜在结果估计中的泛化误差。 实现PDDM和MPDM只分别涉及从每个mini-batch样本中抽取三元组对和四元组对,这使用SITE在效率方面也非常适用于大数据集。提出SITE在人工数据和真实数据上都被证明是有效的,并且实验结果也证明了引入维持局部相似的好处。

方案

image.png 作者先指出现有估计ITE的挑战在于如何估计缺失的反事实结果,其中,平衡Treatment Group和Control Group的分布已被认为是反事实估计的有效策略。此外,作者假设相似的unit会产生相似的Outcome,为了在表示学习设置中满足这一假设,在将unit从协变量空间 X 映射到潜在空间 Z 之后,局部相似性信息应该得到很好的保留。受图像分类领域硬样本挖掘方法的启发,作者设计了一种基于三元组对的有效局部相似性保持策略。
作者提出了一种基于深度表示学习的局部相似性保留个体治疗效果估计(SITE)方法。 SITE 的关键思想是将原始的预处理协变量空间 X 映射到深度神经网络学习的潜在空间 Z。 SITE 试图在潜在空间 Z 上强制约束两个特性:平衡组间分布(MPDM)、保留局部相似性(PDDM)。 网络结构如下图:

image.png 包含了五个部分:

    1. Representation Network. 表示网络。
    1. Triplet Pairs Selection. 三元组对选择
    1. Position-Dependent Deep Metric (PDDM) 位置相关深度度量
    1. Middle Point Distance Minimization (MPDM) 中点距离最小化
    1. Outcome Prediction Network 预测网络

image.png

下面重点说一下 二三四 部分:

Triplet Pairs Selection

从batch中选择根据倾向性得分,选择6个unit(三对),如下图所示。 image.png

具体步骤是:
image.png image.png 可见,通过上面的方式,我们选出了三对“困难对”:(xi,xj),(xk,xl),(xm,xn)(x_i,x_j),(x_k,x_l),(x_m,x_n)。如果困难案例可以实现保留相似性的期望属性,那么它也适用于其他。下文设计的PDDM,将为这种困难对、保留局部相似性这种属性。

PDDM

PDDM的结构如下: image.png image.png 通过PDDM结构,协变量空间中的(xi,xj),(xk,xl),(xm,xn)(x_i,x_j),(x_k,x_l),(x_m,x_n)相似性信息被保留,并投影到潜在空间(zi,zj),(zk,zl),(zm,zn)(z_i,z_j),(z_k,z_l),(z_m,z_n)

MPDM

中点距离最小化为为了平衡T和C的分布。这里依然用到三对难分样本。由于k和m点分别是control group和treatment group中的两个边缘点;j和i点则为中心点。那么,最小化jk和im的中点距离,就可以不断拉近、平衡T和C的在潜在空间的分布。 image.png image.png 因此,MPDM 平衡了潜在空间中两组的分布,而 PDDM 保留了局部相似性。他们两者的组合效果可以在figure 4的右图中能看到。

实验

从几份数据集来看,基于表示学习的方法比基于线性回归和基于最近邻匹配的方法表现更好。通过联合考虑分布平衡和相似性保持,所提出的方法可以有效且高效地估计ITE。 image.png

PDDM 和 MPDM 的实验

  • PDDM:局部相似信息保护
  • MPDM:平衡样本分布 image.png

参考

  1. zhuanlan.zhihu.com/p/599900230
  2. mp.weixin.qq.com/s?__biz=MzI…
  3. zhuanlan.zhihu.com/p/343233402
  4. matheusfacure.github.io/python-caus…