"); //-->
4、因果模型、do算子、干预
4.1 do算子和干预
在概率中,我们有以... 为条件的概念(condition on),但这与干预不同。以 为条件仅意味着我们将关注点限制在 整体人群中接受 treatment=t 的这一部分人群。相比之下,干预 intervention 是让整体人群都接受 treatment=t,而不管观察到的其本身的 treatment 是否为 t。通常用 do 算子表示干预操作,即让整体人群都接受 treatment=t 等价于 。可以对照图 4.2 加深理解,subpopulations 表示观察到的数据中蓝色部分是 T=0 的集合,红色部分是 T=1 的集合。Conditioning 表示我们只关注其中的蓝色部分或红色部分。do(T=1) 是指让本身 T=0 的蓝色部分也变成 T=0,即红色。
还记得第二章讲的潜在结果 potential outcome 吗, 和 是等价的。 的分布可以写成:
平均因果效应 ATE 就可以写成如下形式:
我们更关心 而非其均值,有了概率分布,期望自然就求出来了。我们将 及其他包含 do 算子的概率分布统称为干预分布 interventional distributions.。
干预分布 和观察分布 observational distribution 有本质的区别。观察分布 或 中没有 do 算子,所以我们可以从观察到的数据中直接求得而不需要做任何额外的实验。如果可以将包含 do 算子的表达式 Q 化简成不包含 do 的形式,那么 Q 就是可识别 identifiable 的。
不论何时,每当 do 算子出现在“|”之后,都意味着该表达式中的一切都在干预措施发生后(即 post-intervention)的情况下得到的。例如 表示在 这个 subset 中让其中所有个体的 treatment 都等于 t 后 Y 的期望。相反, 表示在 这个 subset 中被干预之前(i.e. pre-intervention)的期望。这两者的区别对之后要介绍的反事实非常重要。
4.2 Modularity模块化假设
在介绍这个非常重要的假设之前,我们必须指定因果机制是什么。有几种不同的方法可以考虑因果机制。在本节中,我们将产生 的因果机制指定为 的条件概率分布 。正如图 4.3 所示,产生 的因果机制是所有 的父节点及其指向 的边。
模块化假设是指:假设对变量 干预只会改变 的因果机制,只局限在图中椭圆内,不会改变生成任何其他变量的因果机制。从这个意义上讲,因果机制是模块化的。模块化假设的明确定义如下:
如果对节点集合 S 进行干预,将其中的变量设为常数,对于任意节点 i:
如果节点 i 不在集合 S 中,那么其条件概率分布保持不变
如果节点 i 在集合 S 中,如果 是变量 被干预后指定的值,那么 一定为 1,否则为 0。
第二点也可以说,如果 和干预一致( is consistent with the intervention )( 等于 被干预后的值),则
模块化假设允许我们只在一个图中就可以 encode 不同的干预分布。例如
这三种完全不同的分布,都可以用表示联合概率分布 的图来表示,除了涉及到干预的 factor,其他的 factor 都是一样的。
干预分布的因果图与用于联合分布的图相同,只不过是移除了指向干预节点的所有边:这是因为被干预节点的条件概率分布 已经是 1 了,因此我们可以忽略该 factor。另一种解释是既然干预节点已经设置为常数,那么它必然不会受到父节点的影响,因此可以去掉之间的因果关系。删掉边的图称为 manipulated graph。以图 4.4 为例,对 T 干预对应 (b),对 干预对应 (c).
4.3 截断因式分解
回顾下贝叶斯网路中联合概率分布的分解形式:
现在对节点集合S进行干预,对于 , 和干预前的值保持一样。对于 ,,因此,干预后的概率分布可以表示为(截断因式分解):
4.3.1 Example
以最简单的有 confounder 存在的因果图为例,联合概率分布可以表示为:
对 T 进行干预后,,则:
y 的边缘概率分布为:
通过比较干预分布和正常的条件概率分布的差别,可以更深刻地理解为什么“关联不是因果”
可以看到,Eq(2) 和 Eq(1) 的差别在于一个是 一个是。将这个例子更简化一些,假设 T 是一个二值的变量,我们想计算 ATE。因为 就是 potentialoutcome 的概率分布,因此可以通过求期望得到 ,同理得到 ,因此平均因果效应 ATE 就可以写成:
如果将 Eq(1) 代入,则 ATE 可以完全写成概率的形式,表达式中不包括 do,可以通过观察数据得到,这样 ATE 就是 identified。我们在下一小节会更形式化的描述这一过程。
4.4 后门调整
4.4.1 后门路径
以上图为例,回顾第三章,从 T 到 Y 存在两种 association,其中一种是 的因果关联,另一种是 和 的非因果关联,也称这两条路径是 unblocked(因为都是叉结构,且没有 condition on)。后门路径的含义就是,如果一条从 T 到 Y 的路径是 unblocked,且有指向 T 的边(即 ),则称这条路径是后门路径。为什么叫后门呢,因为本身这条路径是没有从 T 到 Y 的有向边的,但是因为有一条指向 T 的边,相当于进入了 T 的后门,这条路径就被打通了。
此时如果我们对 T 干预,则任何指向 T 的边都会被去掉,后门路径就被阻断了,T和 Y 之间就只剩因果关联了。
如果 condition on W1, W2, W3 和 C,同样也会阻断后门路径。
4.4.2 后门准则,后门调整
如果我们想将 完全写成概率的形式,则需要假设 W 满足后门准则。
对于 T 和 Y,如果下面条件为 True 的话,变量集合 W 则满足后门准则:
condition on W 可以阻断 T 和 Y 之间的所有后门路径
W 不包括 T 的所有子孙节点
将 W 引入到 中,可以得到
为什么 ,可以这样想一下。 对应的图中,因为对 T 进行干预,所有指向 T 的边都被删掉,因此,所有的后门路径都被 block 了,T 和 Y 之间只有沿着 的有向路径有关联流(因果关系)。在 对应的图中,因为 condition on W,所有后门路径也没 block了,T 和 Y 之间也只有沿着有向路径的关联流。在这两种情况中,关联流只沿着有向路径流动,因此对应着相同的条件概率分布。
因为没有指向 T 的边,T 没法对 W 造成影响,所以 ,因此上式可以继续写成:
这就是后门调整公式。
4.4.3 Relation to Potential Outcomes
还记得第二章介绍过的调整公式吗:
既然都叫调整公式,后门调整和 Eq(3) 有什么联系吗?对干预后的 Y 求期望:
把 T=1 和 T=0 代入得:
可以看到 eq(4) 和 eq(3) 是相等的, 是 potential outcome 的另一种表示形式。当然,eq(3) 成立也有个前提是 conditional exchangeability:
4.5 结构因果模型
本节我们将从因果图模型转到结构因果模型。相比于比较直观的图模型,结构因果模型可以更详细清晰的解释什么是干预和因果机制。
4.5.1 结构等式
Judea Pearls 说过,数学中的“=”不包含任何因果信息, 和 表示的都是同一个意思,“=”是对称的。但是为了表达因果,需要有一个非对称的符号。如果 A 是 B 的原因,那么改变 A 一定会改变 B,但是反之不成立,我们可以用结构等式 structural equation 来表示:
这里将“=”替换成”:=“。但是,B 和 A 之间的映射是确定性的。理想情况下,我们希望它是概率性的,为一些未知因素留出空间。因此可以写成下面这样:
其中,U 是为观察到的随机变量,在图中用虚线表示,未观察到的 U 类似于我们通过抽样个体看到的随机性;它表示确定 B 的所有相关(嘈杂)背景条件。f 的函数形式不需要指定,当不指定时,我们处于非参数状态,因为我们没有对参数形式做出任何假设。虽然映射是确定性的,但由于它以随机变量 U(“噪声”或“背景条件”变量)作为输入,它可以表示任何随机映射,因此结构方程是 的推广形式。因此,当我们引入结构方程后,截断分解和后门调整仍然成立。
有了结构等式后,我们可以更详细的定义原因和因果机制。生成变量的因果机制是与该变量相对应的结构方程。例如,生成 B 的因果机制是 Eq(5)。类似的,如果 X 出现在结构等式的右边,则 X 是 Y 的直接原因。
图 4.8 更复杂的结构等式如下:
在因果图中,噪声变量通常是隐式的(虚线),而不是明确绘制的。我们写结构方程时已知的变量称为内生(endogenous)变量, 这些是我们正在建模因果机制的变量 - 在因果图中具有父母的变量。相反,外生(exogenous)变量是因果图中没有任何父母的变量。这些变量是我们因果模型外部的,因为我们没有为其建模因果机制。例如,在图 4.8 描述的因果模型中,内生变量为 。外源变量为 。
结构因果模型 SCM 定义如下,包含一组内生变量,一组外生变量,一组生成内生变量的函数:
4.5.2 干预
从 SCM 的角度来描述干预会非常简单。对 T 进行干预 相当于将 T 的结构等式替换成 。例如,图 4.9 对应的 SCM 为:
如果对 T 干预,让其等于 t,那么干预后的 SCM 则为:
可以发现,除了 T 本身的结构等式,其他的等式都保持不变。这也是由模块化假设决定的。
换句话说,干预操作是 localized。通过模块化假设,可以引出 Pearl 所说的反事实准则。回顾下第二章潜在结果的概念, 指的是当 treatment=t 时个体 i 的潜在结果。这里我们换另一种记号表示,,其中 u 等价于 i。根据定义 4.3,反事实准则指的就是干预之前 treatment=t 的潜在结果与干预之后 的潜在结果相等。
参考文献
[1] Brady Neal, Introduction to Causal Inference from a Machine Learning Perspective, 2020
*博客内容为网友个人发布,仅代表博主个人观点,如有侵权请联系工作人员删除。