因果3-因果图

2023-11-12

上一章我们介绍了潜在结果模型，这一章我们尝试从图的角度理解因果，大家都有图论基础，我就不多赘述图的基本概念了，在因果图里我们主要研究DAG（directed acyclic graph，有向无环图），如图1。

图1. 一个DAG例子

Bayesian Networks

贝叶斯网络，一个概率图模型，因果图就是由此内生而来，因此先介绍它，贝叶斯网络的职责是将概率和图模型结合起来，使得我们能直接利用图表示概率关系，而想用图模型来表示概率关系，需要先提出两个假设。

首先，我们从概率建模出发，如果我们相对一组数据的分布 P ( x 1 , x 2 , . . . , x n ) P(x_1,x_2,...,x_n) P(x1,x2,...,xn)建模，则根据条件概率的链式法则，我们可以将该分布分解为：

P ( x 1 , x 2 , . . . , x n ) = P ( x 1 ) ∏ i P ( x i ∣ x i − 1 , . . . , x 1 ) P(x_1,x_2,...,x_n)=P(x_1)\prod_iP(x_i|x_{i-1},...,x_1) P(x1,x2,...,xn)=P(x1)∏iP(xi∣xi−1,...,x1)

而如果给定图1，我们想求图1中的分布关系，我们就需要先定义图1对应的分布情况。

因此先提出一个最基础的假设：DAG中相邻的点是依赖关系。

利用这个假设，可以推出 P ( x 1 , x 2 , x 3 , x 4 ) = P ( x 1 ) P ( x 2 ∣ x 1 ) P ( x 3 ∣ x 2 , x 1 ) P ( x 4 ∣ x 3 , x 2 , x 1 ) P(x_1,x_2,x_3,x_4)=P(x_1)P(x_2|x_1)P(x_3|x_2,x_1)P(x_4|x_3,x_2,x_1) P(x1,x2,x3,x4)=P(x1)P(x2∣x1)P(x3∣x2,x1)P(x4∣x3,x2,x1)。但大家还记得概率论的话就会知道，这样没加一个变量，参数就会指数级上升，如图2所示。因此光是一个依赖假设还是不够，我们需要引入独立假设，减少不必要的计算量。

图2. 链式法则求解

Local Markov assumption

局部马尔科夫假设。

为了避免指数爆炸的情况，我们想如果能让每个节点只依赖于其父节点就好了，这就是局部马尔科夫假设：给定一个DAG图，点X独立于其所有的非子孙节点。

再基于该假设，我们可以进一步将图1的概率分布分解为 P ( x 1 , x 2 , x 3 , x 4 ) = P ( x 1 ) P ( x 2 ∣ x 1 ) P ( x 3 ∣ x 2 , x 1 ) P ( x 4 ∣ x 3 ) P(x_1,x_2,x_3,x_4)=P(x_1)P(x_2|x_1)P(x_3|x_2,x_1)P(x_4|x_3) P(x1,x2,x3,x4)=P(x1)P(x2∣x1)P(x3∣x2,x1)P(x4∣x3)，我们称之为Bayesian network factorization（贝叶斯网络分解）,即给定一个概率分布P和DAG G，如果 P ( x 1 , . . . x n ) = ∏ i P ( x i ∣ p a i ) P(x_1,...x_n)=\prod_iP(x_i|pa_i) P(x1,...xn)=∏iP(xi∣pai)，则P可以根据G进行分解，局部马尔科夫假设是这种贝叶斯网络分解形式的充要条件。

Minimality assumption

整合Local Markov assumption和”依赖“假设，我们便得到了极小假设：

给定一个DAG图，点X独立于其所有的非子孙节点。
DAG中相邻的点是依赖关系

我们称关于G且满足极小假设的P是马尔科夫的。

这就是贝叶斯网络的假设，下面我们看看因果图模型。

Causal graph

因果图。

首先，定义因果关系：如果变量Y响应于变量X的变化，则X是变量Y的因。

根据这个定义，因果图的第一个假设，Causal Edges Assumption（因果边假设）：在一个有向图中，每一个父亲节点都是孩子节点的因。

这样因果图就基于两个假设：

Minimality assumption
Causal Edges Assumption

仅仅知道这两个假设理论上就可以求出所有的因果关系，但在实践中，当因果关系复杂起来就很难分析，因此我们需要总结一些基本的block。

两个节点之间的关系

图3是只考虑两个节点时的所有关系情况，（a)表示 x 1 x_1 x1和 x 2 x_2 x2没有边，其表示的概率关系为 P ( x 1 , x 2 ) = P ( x 1 ) P ( x 2 ) P(x_1, x_2)=P(x_1)P(x_2) P(x1,x2)=P(x1)P(x2)， x 1 x_1 x1和 x 1 x_1 x1相互独立（Local Markov assumption）;（b)表示 x 1 x_1 x1和 x 2 x_2 x2之间有因果关系， x 1 x_1 x1是 x 2 x_2 x2的因（Causal Edges Assumption）,证明如下,我们对a和b的概率图进行贝叶斯分解得到：
（a): P ( x 1 , x 2 ) = P ( x 1 ) P ( x 2 ) P(x_1, x_2)=P(x_1)P(x_2) P(x1,x2)=P(x1)P(x2)

（b): P ( x 1 , x 2 ) = P ( x 1 ) P ( x 2 ∣ x 1 ) P(x_1,x_2)=P(x_1)P(x_2|x_1) P(x1,x2)=P(x1)P(x2∣x1)

图3. 两节点的关系只有两个点的关系还是很好理解的，下面让我们看看三个点的关系。

三个节点之间的关系

如图4，当考虑三个节点时共有三种情况，我们首先分析chain和fork。

图4. 三节点的关系

chains and forks

chains（链式结构）和 forks （分叉结构）拥有相同的依赖关系（第10章会详细讨论），其依赖关系的传递如图4红线所示。

当我们同时condition on x2, chains 和 forks 还拥有相同的独立关系，x1和x3的关联被x2 blocked（阻断了），即 x 1 ⊥ ⁣ ⁣ ⁣ ⊥ x 3 ∣ x 2 x_1 {\perp \!\!\! \perp} x_3|x_2 x1⊥⊥x3∣x2，如图5所示。

图5. x2条件下的chain和fork

从概率角度分析，chain图得到：

P ( x 1 , x 2 , x 3 ) = P ( x 1 ) P ( x 2 ∣ x 1 ) P ( x 3 ∣ x 2 ) P(x_1,x_2,x_3)=P(x_1)P(x_2|x_1)P(x_3|x_2) P(x1,x2,x3)=P(x1)P(x2∣x1)P(x3∣x2)（Bayesian network factorization）,

两边同时除以 P ( x 2 ) P(x_2) P(x2)： P ( x 1 , x 2 , x 3 ) P ( x 2 ) = P ( x 1 ) P ( x 2 ∣ x 1 ) P ( x 3 ∣ x 2 ) P ( x 2 ) \frac{P(x_1,x_2,x_3)}{P(x_2)}=\frac{P(x_1)P(x_2|x_1)P(x_3|x_2)}{P(x_2)} P(x2)P(x1,x2,x3)=P(x2)P(x1)P(x2∣x1)P(x3∣x2)

P ( x 1 , x 3 ∣ x 2 ) = P ( x 1 ) P ( x 2 , x 1 ) P ( x 3 ∣ x 2 ) P ( x 2 ) P ( x 1 ) = P ( x 2 , x 1 ) P ( x 3 ∣ x 2 ) P ( x 2 ) = P ( x 1 ∣ x 2 ) P ( x 3 ∣ x 2 ) P(x_1,x_3|x_2)=\frac{P(x_1)P(x_2,x_1)P(x_3|x_2)}{P(x_2)P(x_1)}=\frac{P(x_2,x_1)P(x_3|x_2)}{P(x_2)}=P(x_1|x_2)P(x_3|x_2) P(x1,x3∣x2)=P(x2)P(x1)P(x1)P(x2,x1)P(x3∣x2)=P(x2)P(x2,x1)P(x3∣x2)=P(x1∣x2)P(x3∣x2)，即 x 2 x_2 x2条件下， x 1 x_1 x1条件独立于 x 3 x_3 x3。

fork图得到 P ( x 1 , x 2 , x 3 ) = P ( x 2 ) P ( x 1 ∣ x 2 ) P ( x 3 ∣ x 2 ) P(x_1,x_2,x_3)=P(x_2)P(x_1|x_2)P(x_3|x_2) P(x1,x2,x3)=P(x2)P(x1∣x2)P(x3∣x2)（Bayesian network factorization）

两边同时除以 P ( x 2 ) P(x_2) P(x2)： P ( x 1 , x 2 , x 3 ) P ( x 2 ) = P ( x 2 ) P ( x 1 ∣ x 2 ) P ( x 3 ∣ x 2 ) P ( x 2 ) \frac{P(x_1,x_2,x_3)}{P(x_2)}=\frac{P(x_2)P(x_1|x_2)P(x_3|x_2)}{P(x_2)} P(x2)P(x1,x2,x3)=P(x2)P(x2)P(x1∣x2)P(x3∣x2)

P ( x 1 , x 3 ∣ x 2 ) = P ( x 1 ∣ x 2 ) P ( x 3 ∣ x 2 ) P(x_1,x_3|x_2)=P(x_1|x_2)P(x_3|x_2) P(x1,x3∣x2)=P(x1∣x2)P(x3∣x2)，即 x 2 x_2 x2条件下， x 1 x_1 x1条件独立于 x 3 x_3 x3。

collider

图6. collider的两种情况

如图6a，collider（对撞结构）与前两种结构不同，collider中x1和x3没有关联关系，x1和x3的关联被x2 blocked了，证明如下：

P ( x 1 , x 3 ) = ∑ x 2 P ( x 1 , x 2 , x 3 ) = ∑ x 2 P ( x 1 ) P ( x 3 ) P ( x 2 ∣ x 1 , x 3 ) = P ( x 1 ) P ( x 3 ) ∑ x 2 P ( x 2 ∣ x 1 , x 3 ) = P ( x 1 ) P ( x 3 ) P(x_1,x_3)=\sum_{x_2}P(x_1,x_2,x_3)=\sum_{x_2}P(x_1)P(x_3)P(x_2|x_1,x_3)=P(x_1)P(x_3)\sum_{x_2}P(x_2|x_1,x_3)=P(x_1)P(x_3) P(x1,x3)=∑x2P(x1,x2,x3)=∑x2P(x1)P(x3)P(x2∣x1,x3)=P(x1)P(x3)∑x2P(x2∣x1,x3)=P(x1)P(x3)

如图6b，而当在x2条件下时，x1和x3反而建立起一种虚假的关联，x1和x3的关联被x2unblocked，证明：

P ( x 1 , x 2 , x 3 ) = P ( x 1 ) P ( x 3 ) P ( x 2 ∣ x 1 , x 3 ) P(x_1,x_2,x_3)=P(x_1)P(x_3)P(x_2|x_1,x_3) P(x1,x2,x3)=P(x1)P(x3)P(x2∣x1,x3)（Bayesian network factorization）,

两边同时除以 P ( x 2 ) P(x_2) P(x2)： P ( x 1 , x 3 ∣ x 2 ) = P ( x 1 ) P ( x 3 ) P ( x 2 ∣ x 1 , x 3 ) P ( x 2 ) P(x_1,x_3|x_2)=P(x_1)P(x_3)\frac{P(x_2|x_1,x_3)}{P(x_2)} P(x1,x3∣x2)=P(x1)P(x3)P(x2)P(x2∣x1,x3)，可见在x2条件下，x1与x3不满足条件独立。

最后我们还可以根据collider的性质延伸出一种情况，如图7所示，如果我们condition on x2的子孙，也会产生虚假的关联，这个关联流向为x4->x2->(x1,x3)。

图7. collider的子孙

D-separation

现在我们对上面谈到的情况对点之间的关系进行总结，将几个点之间的关系拓展到整个图。

首先我们正式定义blocked概念。对于单条路径，如果：

路径中存在chain …->W->…或者fork…<-W->…结构， W ∈ Z W\in Z W∈Z
路径中存在collider …->W<-…， W ∉ Z W \notin Z W∈/Z且W的子孙 d e ( W ) ∉ Z de(W)\notin Z de(W)∈/Z

则称X和Y之间的这条路径被条件集Z blocked（阻断），条件集Z可以是空集。与之相对，unblocked路径便是不满足blocked条件的路径。

然后基于blocked，我们定义d-separation，如果：

两个顶点集合X和Y之间的路径全部被Z blocked，则称X和Y被Z d-separation。 如果二者之间存在unblocked路径，则称X和Y是d-connected。

再扩展到整个图的关系，首先我们定义一些符号：如果在Z条件下，X和Y在图G中是d-separation的，则 X ⊥ ⁣ ⁣ ⁣ ⊥ G Y ∣ Z X {\perp \!\!\! \perp}_G Y|Z X⊥⊥GY∣Z；如果在Z条件下，X和Y在分布P中是条件独立的，则 X ⊥ ⁣ ⁣ ⁣ ⊥ P Y ∣ Z X {\perp \!\!\! \perp}_P Y|Z X⊥⊥PY∣Z。

有了这些符号，我们定义global Markov assumption：

给定P关于G是马尔科夫的（满足local Markov assumption），如果在Z条件下，X和Y在G中是 d-separation 的，则在Z条件下，X和Y在分布P中是条件独立的，即：

X ⊥ ⁣ ⁣ ⁣ ⊥ G Y ∣ Z = > X ⊥ ⁣ ⁣ ⁣ ⊥ P Y ∣ Z X {\perp \!\!\! \perp}_G Y|Z =>X {\perp \!\!\! \perp}_P Y|Z X⊥⊥GY∣Z=>X⊥⊥PY∣Z

local Markov assumption，global Markov assumption 和 Bayesian network factorization是不同角度的理解，他们三者是完全等价的，可以将这三者统称为Markov assumption，或者说P关于G是马尔科夫的。

图8. 因果关联这一章我们详细探讨了因果图中点与点之间关系，并学习了如何分辨关系以及使其独立的方法。但在因果推理中，我们希望得到的是因果关系，而不是独立关系，这需要一些方法能够抛开非因果关联，只留下因果关联，如图8所示，只考虑蓝色线。然后计算因果效应。后面我们会进一步学习因果模型，看他是如何解决这些问题的。

Reference

Introduction to Causal Inference

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)

因果推理

机器学习