"); //-->
这时候,我们就可以问出本章中最重要的问题“什么样的假设可以使 ATE=associational difference”?等同于“什么假设让我们能够通过取 列的平均值(忽略问号)减去从 列的平均值(忽略问好)来计算 ATE?”
这个问题的答案就是假设 ,即 potential outcome 和 treatment 独立。这个假设使我们能够将 ATE 简化为 associational difference,即有了下面这个推导:
第一个=成立由 得到,第二个=成立因为在 条件下,potentionl outcome 和 observe outcome 是相等的,可以跳到公式 2.13 得到解释。
可以从两个方面来理解假设 2.1 中的独立性:Ignorability 和 Exchangeability。
Ignorability:
这种对缺失数据的忽略被称为可忽略性 Ignorability。换句话说,Ignorability 就像忽略人们最终是如何选择他们所选择的 treatment,而只是假设他们是被随机分配 treatment 的,即也就是去掉了 confounder 的影响,即 ;展现在因果图中就是删掉 的边。
▲ Fig 2.1
▲ Fig 2.2
Exchangeability:
关于这个假设的另一个角度是可交换性 Exchangeability。可交换性是指实验组(treatment group)里的个体是可交换的,即如果它们被调换,新的实验组将观察到与旧的实验组相同的结果,而新的控制组将观察到与旧的控制组相同的结果。形式化的,可交换性意味着:
继而可以推出:
这和 也是等价的。关于可交换性的一个重要直觉是,它保证了实验组的 comparable。换句话说,实验组在 treatment 以外的所有方面都是相同的。这种直觉是 "控制 "或 "调整 "变量的概念的基础,我们很快会在讨论条件交换性时讨论这个问题。
用可视化的例子来理解 Exchangeability:
T=1 的所有个体称为 Group A,T=0 的所有个体称为 Group B,把 GroupA 和 GroupB 中的个体全部交换后,Observe outcome 保持不变。
那么交换前后的 也保持不变,然后就可以推出独立性。
再来介绍一个概念:identifiability
如果可以把一个因果效应的表达式减少到一个纯粹的统计表达式,只使用统计符号,如 T、X、Y,期望,和条件来表示,则意味着因果量 是可识别的。
我们已经看到,假设 2.1 具有非常好的性质。但是,一般来说,它是完全不现实的,因为在我们观察到的大多数数据中都可能存在混杂因素(图2.1)。然而,我们可以通过进行随机实验 RCT 实现这一假设,随机实验迫使 treatment 不是由任何其他因素引起的,而是由抛硬币决定的,所以我们就有了图 2.2 所示的因果结构。我们在第五章中更深入地讨论随机实验。
本小节从两个角度介绍了假设 2.1:可忽略性和可交换性。从数学上讲,这两个假设的意思是一样的,但它们的名字对应于对同一假设的不同思考方式。可交换性和可忽略性只是这个假设的两个名称。之后,我们将介绍这个假设的更实际的、有条件的版本。
用上面的例子解释假设 2.2 就是:“在所有喝醉酒的人里,其穿不穿鞋睡觉不是由其主观意识决定的,而与意识无关,是由一个隐藏的上帝之手决定的”。同样的对于 2.2,也有两种不同的解释。
Conditional exchangeability:
在观察性数据中,假设实验组是可以 exchangeability 是不现实的。换句话说,没有理由期望各组在 treatment 之外的所有相关变量上都是一样的。然而,如果我们通过条件化来控制相关变量,那么实验组或许是可交换的。这种情况下,尽管 treatment 和 potential outcome 可能是 unconditionally associated(由于 confounder 存在,红色虚线),但在 X 固定住的条件下,它们是没有关联的(想象下红线被截断)。
如 Fig 2.3 所示,X 是 T 和 Y 的 confunder,因此,T 和 Y 之间有一条沿着 的 non-causal association(红色虚线所示)。但是,当我们 contioning on X,即固定住 X 的值,T 和 Y 之间的 non-causal association 就会被 block 掉,变成:
我们可以推出在 X 固定的条件下的 causal effect,即 conditional average treatment effect:
第一行是期望公式,第二行是由假设 2.2 得到的,第三行是由观察的数据得到的。
这时候再对 X 求期望,就可以得到完整的 average treatment effect,这个又叫做 Adjustment Formula(调整公式):
Conditional exchangeability(假设 2.2)是因果推理的核心假设,它有很多名称。例如,unconfoundedness 无混杂性、conditional ignorability 条件可忽略性、no unobserved confounding 无未观察到的混杂、selection on observables 对可观察的选择、no omitted variable bias 无遗漏变量偏差等。我们将在本系列教程中大量使用 “unconfoundedness 无混杂性”这个名称。
但是,实际情况是 我们通常无法确定有条件的可交换性是否成立。可能有一些未观察到的混杂因子不是 X 的一部分,这意味着违反了条件可交换性,如下图所示,由于存在另外一个混杂因子 W,独立性并不存在。
幸运的是,随机试验可以解决这个问题(第 5 章)。不幸的是,在观测数据中,这种情况很有可能存在。我们能做的最好的事情就是观察并拟合尽可能多的协变量(X 和 W)——尽可能确保 unconfoundedness。
Positivity is the condition that all subgroups of the data with different covariates have some probability of receiving any value of treatment. Formally, we define positivity for binary treatment as follows
这一小节再介绍几个其他的概念:
No interference:
No interference 指的是每个个体的 potential outcome 只和当前这个个体所接受的 treatment 有关,和其他个体的 treatment 无关。
Consistency:
Consistency 一致性指的是,如果观察到的 treatment T=t,观察的结果Y 实际上是 T=t 的 potential outcome--Y(t)。这样就能解释为什么 ,这可能解决了前面部分一些读者留下的疑问,即为什么
搞明白上述假设后,我们再来回顾下调整公式,这一次在每个等式后把需要的假设列了出来:
这就是怎么把所有这些假设结合在一起,来保证平均因果效应 ATE 的可识别性。通过上面的公式,很容易就可以算 ATE 的实际估值。
*博客内容为网友个人发布,仅代表博主个人观点,如有侵权请联系工作人员删除。