新闻  |   论坛  |   博客  |   在线研讨会
因果推断入门:为什么需要因果推断?(2)
数据派THU | 2022-09-18 11:55:25    阅读:849   发布文章

2.3.2 Ignorability & Exchangeability


这时候,我们就可以问出本章中最重要的问题“什么样的假设可以使 ATE=associational difference”?等同于“什么假设让我们能够通过取  列的平均值(忽略问号)减去从  列的平均值(忽略问好)来计算 ATE?”
这个问题的答案就是假设 ,即 potential outcome  和 treatment 独立。这个假设使我们能够将 ATE 简化为 associational difference,即有了下面这个推导:


图片


第一个=成立由  得到,第二个=成立因为在  条件下,potentionl outcome  和 observe outcome 是相等的,可以跳到公式 2.13 得到解释。
图片
可以从两个方面来理解假设 2.1 中的独立性:Ignorability 和 Exchangeability。
Ignorability:
这种对缺失数据的忽略被称为可忽略性 Ignorability。换句话说,Ignorability 就像忽略人们最终是如何选择他们所选择的 treatment,而只是假设他们是被随机分配 treatment 的,即也就是去掉了 confounder 的影响,即 ;展现在因果图中就是删掉  的边。
图片

▲ Fig 2.1


图片▲ Fig 2.2
Exchangeability:
关于这个假设的另一个角度是可交换性 Exchangeability。可交换性是指实验组(treatment group)里的个体是可交换的,即如果它们被调换,新的实验组将观察到与旧的实验组相同的结果,而新的控制组将观察到与旧的控制组相同的结果。形式化的,可交换性意味着:
图片
继而可以推出:
图片
这和  也是等价的。关于可交换性的一个重要直觉是,它保证了实验组的 comparable。换句话说,实验组在 treatment 以外的所有方面都是相同的。这种直觉是 "控制 "或 "调整 "变量的概念的基础,我们很快会在讨论条件交换性时讨论这个问题。
用可视化的例子来理解 Exchangeability:
图片
T=1 的所有个体称为 Group A,T=0 的所有个体称为 Group B,把 GroupA 和 GroupB 中的个体全部交换后,Observe outcome  保持不变。
图片
那么交换前后的  也保持不变,然后就可以推出独立性。
图片
再来介绍一个概念:identifiability
图片
如果可以把一个因果效应的表达式减少到一个纯粹的统计表达式,只使用统计符号,如 T、X、Y,期望,和条件来表示,则意味着因果量  是可识别的。
我们已经看到,假设 2.1 具有非常好的性质。但是,一般来说,它是完全不现实的,因为在我们观察到的大多数数据中都可能存在混杂因素(图2.1)。然而,我们可以通过进行随机实验 RCT 实现这一假设,随机实验迫使 treatment 不是由任何其他因素引起的,而是由抛硬币决定的,所以我们就有了图 2.2 所示的因果结构。我们在第五章中更深入地讨论随机实验。
图片
本小节从两个角度介绍了假设 2.1:可忽略性和可交换性。从数学上讲,这两个假设的意思是一样的,但它们的名字对应于对同一假设的不同思考方式。可交换性和可忽略性只是这个假设的两个名称。之后,我们将介绍这个假设的更实际的、有条件的版本。

2.3.3 Conditional Exchangeability & Unconfoundedness


图片
用上面的例子解释假设 2.2 就是:“在所有喝醉酒的人里,其穿不穿鞋睡觉不是由其主观意识决定的,而与意识无关,是由一个隐藏的上帝之手决定的”。同样的对于 2.2,也有两种不同的解释。
Conditional exchangeability:
在观察性数据中,假设实验组是可以 exchangeability 是不现实的。换句话说,没有理由期望各组在 treatment 之外的所有相关变量上都是一样的。然而,如果我们通过条件化来控制相关变量,那么实验组或许是可交换的。这种情况下,尽管 treatment 和 potential outcome 可能是 unconditionally associated(由于 confounder 存在,红色虚线),但在 X 固定住的条件下,它们是没有关联的(想象下红线被截断)。
图片
如 Fig 2.3 所示,X 是 T 和 Y 的 confunder,因此,T 和 Y 之间有一条沿着  的 non-causal association(红色虚线所示)。但是,当我们 contioning on X,即固定住 X 的值,T 和 Y 之间的 non-causal association 就会被 block 掉,变成:


图片
我们可以推出在 X 固定的条件下的 causal effect,即 conditional average treatment effect:
图片
第一行是期望公式,第二行是由假设 2.2 得到的,第三行是由观察的数据得到的。
这时候再对 X 求期望,就可以得到完整的 average treatment effect,这个又叫做 Adjustment Formula(调整公式):
图片
Conditional exchangeability(假设 2.2)是因果推理的核心假设,它有很多名称。例如,unconfoundedness 无混杂性、conditional ignorability 条件可忽略性、no unobserved confounding 无未观察到的混杂、selection on observables 对可观察的选择、no omitted variable bias 无遗漏变量偏差等。我们将在本系列教程中大量使用 “unconfoundedness 无混杂性”这个名称。
但是,实际情况是 我们通常无法确定有条件的可交换性是否成立。可能有一些未观察到的混杂因子不是 X 的一部分,这意味着违反了条件可交换性,如下图所示,由于存在另外一个混杂因子 W,独立性并不存在。
图片
幸运的是,随机试验可以解决这个问题(第 5 章)。不幸的是,在观测数据中,这种情况很有可能存在。我们能做的最好的事情就是观察并拟合尽可能多的协变量(X 和 W)——尽可能确保 unconfoundedness。

2.3.4 Positivity/Overlap and Extrapolation


虽然想象中对许多协变量进行 condition 可以实现 unconfoundedness,但它实际上可能是有副作用的。这与另一个我们尚未讨论的假设有关:Positivity 积极性。Positivity 是指具有不同协变量值 X=x 的任何 group 都有一定的概率接受任何 value 的 treatment。即。为了好理解把原文也贴出来,建议大家停下来仔细回味一下 Positivity 的意思。


Positivity is the condition that all subgroups of the data with different covariates have some probability of receiving any value of treatment. Formally, we define positivity for binary treatment as follows

图片
下面解释 positivity 为啥重要,首先回顾下调整公式:
图片
如果违反了 positivity,那么就有  或者 ,由联合概率公式得到  或 ,这正对应着调整公式中的两个事件。
把 Eq.(1) 中的期望改成求和,Eq(1) 就可以写成:
图片
应用 Bayes rule, 可以得到:
图片
在 Eq.(2) 中,如果分母中的 ,那么算不出 causal effect 了。
直观的解释是如果 ,那么意味着 X=x 这一组 group 里面,每个人都接受了 treatment(每个喝醉酒的人都穿鞋睡觉),这样就没法计算 causal effect。
The Positivity-Unconfoundedness Tradeoff:
尽管 condition on 更多的协变量可能会有更高的机率满足 unconfoundedness,但同样会有更大的机率违反 Positivity。随着我们增加协变量的数量,每个 subgroup 越来越小,整个 subgroup 得到同样 treatment 的可能性越来越高。例如,一旦任 subgroup 的大小减少到 1,肯定不会满足 Positivity。 

2.3.5 No interference, Consistency, and SUTVA


这一小节再介绍几个其他的概念:
No interference:
图片
No interference 指的是每个个体的 potential outcome 只和当前这个个体所接受的 treatment 有关,和其他个体的 treatment 无关。
Consistency:
图片
Consistency 一致性指的是,如果观察到的 treatment T=t,观察的结果Y 实际上是 T=t 的 potential outcome--Y(t)。这样就能解释为什么 ,这可能解决了前面部分一些读者留下的疑问,即为什么
图片

2.3.6 Tying It All Together


搞明白上述假设后,我们再来回顾下调整公式,这一次在每个等式后把需要的假设列了出来:
图片
这就是怎么把所有这些假设结合在一起,来保证平均因果效应 ATE 的可识别性。通过上面的公式,很容易就可以算 ATE 的实际估值。



*博客内容为网友个人发布,仅代表博主个人观点,如有侵权请联系工作人员删除。

参与讨论
登录后参与讨论
推荐文章
最近访客