版权:转载前请联系作者获得授权。
声明:部分内容出自因果关系之梯,已获得原作者授权。
参考书籍:《The Book of Why》——Judea Pearl
因果关系之梯
因果关系之梯可以分为三个层次(由低到高):
- 关联 :X和Y是否相关,有没有互相影响。
- 干预:如果改变X,Y会有什么变化?
- 反事实:如果想让Y发生变化,能否通过改变X来实现?
因果图的路径结构
因果图的路径结构可以分为三种:
- 链式:X -> Z -> Y
- 叉式:X <- Z -> Y
- 对撞:X -> Z <- Y
在两种情况下,节点之间具有相关性(不相互独立):
- 有信息从一个节点流向另一个节点,如链式中的X和Y;
- 有相同节点的信息流向这两个节点,如叉式中的X和Y。
阻断
定义:在一条路径中,在不以任何节点为条件的前提下,当且仅当两条箭头在某个变量处对撞时,称该路径被阻断,该变量称为对撞子。
- 在链式路径和叉式路径中,X和Y是相关的,但是如果以Z为条件(也称为“控制Z”),考虑(X | Z)和(Y | Z),它们是不相关的。这是由于X和Y之间的路径被阻断了。
- 在对撞路径中,X和Y是不相关的,但是如果以Z为条件,考虑(X | Z)和(Y | Z),它们是相关的。这是由于原本阻断的路径被打开了。
d-分离
定义:假设N为节点集,如果一条路径满足下面三种情况的至少一种,则称该路径被N(节点集)d-分离。
- 路径包含链式接合X -> Z -> Y,且Z∈N;
- 路径包含叉式接合X <- Z -> Y,且Z∈N;
- 路径包含对撞接合X -> Z <- Y,且Z∉{N∪N的子孙节点}。
更一般地,如果节点N阻断了X -> Y之间的每条路径,则称X和Y被N(节点)d-分离。
d-分离法则:
- 以非对撞子为条件时,包含该节点的路径被阻断;
- 以对撞子为条件时,由于该对撞子造成的阻断会解除;
- 以对撞子的子孙为条件时,由于该对撞子造成的阻断会解除。
混杂
定义:任何使
P
(
Y
∣
d
o
(
X
)
)
P(Y|do(X))
P(Y∣do(X))不同于
P
(
Y
∣
X
)
P(Y|X)
P(Y∣X)的因素。
例子:下图中,Z就是X和Y之间的混杂因子。
结构因果模型(SCM)
SCM用于对因果推断过程建模。在SCM中,包含外生变量集合U、内生变量集合V和函数集合F。
- 外生变量:表示模型没有考虑到的一些因素,如:噪声、不确定性等。图中的U1和U2都是外生变量。
- 内生变量:主要要研究的变量,图中的X和Y都是内生变量。
- 函数:外生变量与内生变量之间的计算关系,图中右侧的两个式子即为函数。
- 单向箭头:表示两个变量之间存在直接的因果关系。
- 双向箭头:表示两个变量之间存在未知的混杂因素。