因果推断理论框架 Potenial Outcomes Framework

2023-11-04

1.Potenial Outcomes Framework

  因果效应通常无法直接计算(无法同时观测一个样本施加和不施加干预的结果),所以通常是通过观测数据推断,由于相关性 ≠ \neq =因果性,观测结果不直接等于ATE,Potenial Outcomes Framework提供了一套从观测结果获得因果效应的理论
定义:
X X X: 协变量
T T T:T=1干预组,T=0对照组
Y Y Y:observed outcome观测结果
Y 0 , Y 1 Y_0,Y_1 Y0,Y1:potential outcome潜在结果,如果接受干预T=1或者T=0时的潜在结果
E ( Y 0 ) , E ( Y 1 ) {E}(Y_0),{E}(Y_1) E(Y0),E(Y1):潜在结果的均值,如果所有人接受干预T=1(或者T=0)的均值
ATE(average causal treatment effect) :
Δ = μ 1 − μ 0 = E ( Y 1 ) − E ( Y 0 ) \Delta = \mu_1-\mu_0 = {E}(Y_1) - {E}(Y_0) Δ=μ1μ0=E(Y1)E(Y0)

2.Observation Studies

  针对某个样本无法同时获得T=1和T=0的结果,样本的潜在结果Y可以写为: Y = Y 1 T + Y 0 ( 1 − T ) Y = Y_1T + Y_0(1-T) Y=Y1T+Y0(1T)。通常情况下是无法从观测数据直接得到ATE的。由于confounders的存在,T=1和T=0组无法直接比较,导致相关性 ≠ \neq =因果性,相关性可由观测结果得到,因果性即为需要计算的ATE。

相关性: E ( Y ∣ T = 1 ) − E ( Y ∣ T = 0 ) E(Y|T=1)-E(Y|T=0) E(YT=1)E(YT=0)
因果性: E ( Y 1 ) − E ( Y 0 ) E(Y_1)-E(Y_0) E(Y1)E(Y0)

2.1 相关性 ≠ \neq =因果性举例

  一组观测数据发现穿鞋睡觉和醒来头痛有强相关性,这明显不符合常识:

E ( Y ∣ T = 1 ) − E ( Y ∣ T = 0 ) = E ( 头 痛 = 1 ∣ 穿 鞋 睡 觉 = 1 ) − E ( 头 痛 = 1 ∣ 穿 鞋 睡 觉 = 0 ) E(Y|T=1)-E(Y|T=0)=E(头痛=1|穿鞋睡觉=1)-E(头痛=1|穿鞋睡觉=0) E(YT=1)E(YT=0)=E(=1穿=1)E(=1穿=0)

  但是穿鞋睡觉和头痛相关,实际上是由confounder喝酒引起的。从下图中可以看到,T=1穿鞋睡觉组和T=0组喝酒人数占比相差很大。所以,要得到穿鞋睡觉对头痛的因果效应(ATE),需刨除喝酒影响,使得两组喝酒人数占比一致,这样两组数据结果才是可比的。

2.2 相关性 ≠ \neq =因果性证明

Y ‾ ( 1 ) \overline Y^{(1)} Y(1)为观测到的T=1的所有样本均值
Y ‾ ( 1 ) = E ( Y ∣ T = 1 ) = E ( Y 1 T + Y 0 ( 1 − T ) ∣ T = 1 ) = E ( Y 1 ∣ T = 1 ) (1) \overline Y^{(1)} = {E}(Y|T=1) = {E}( Y_1T + Y_0(1-T)|T=1) = {E}( Y_1|T=1) \tag1 Y(1)=E(YT=1)=E(Y1T+Y0(1T)T=1)=E(Y1T=1)(1) 但是 E ( Y 1 ∣ T = 1 ) ≠ E ( Y 1 ) {E}(Y_1|T=1) \neq {E}(Y_1) E(Y1T=1)=E(Y1) ,因为 E ( Y 1 ) {E}(Y_1) E(Y1)是所有样本接受干预的潜在结果的均值。
E ( Y 1 ∣ T = 1 ) − E ( Y 0 ∣ T = 0 ) = E ( Y 1 − Y 0 ∣ T = 1 ) ⏞ A T T + E ( Y 0 ∣ T = 1 ) − E ( Y 0 ∣ T = 0 ) ⏞ b i a s ≠ Δ ≠ E ( Y 1 ) − E ( Y 0 ) (2) \begin{aligned} {E}(Y_1|T=1)-{E}(Y_0|T=0) &= \overbrace{ {E}(Y_1-Y_0|T=1)}^{ATT} +\overbrace{ {E}(Y_0|T=1) - {E}(Y_0|T=0)}^{bias} \\ &\neq \Delta \neq {E}(Y_1) - {E}(Y_0) \tag2 \end{aligned} E(Y1T=1)E(Y0T=0)=E(Y1Y0T=1) ATT+E(Y0T=1)E(Y0T=0) bias=Δ=E(Y1)E(Y0)(2)

3.RCT随机实验

和观测数据比,RCT实验数据符合一下条件:
( Y 0 , Y 1 ) ⊥ T    ⟺    X ⊥ T {(Y_0,Y_1)} \bot {T} \iff X \bot T (Y0,Y1)TXT Y 1 ⊥ T {Y_1} \bot {T} Y1T表示对于观测到T=0的样本,如果接受干预,其潜在结果和T=1的样本一致。即是否接受干预对潜在结果无影响(直观理解是由于 T ⊥ X T \bot X TX,T=1和T=0两组人群可比,所以施加干预得到的潜在结果一致):
E ( Y 1 ∣ T = 1 ) = E ( Y 1 ∣ T = 0 ) = E ( Y 1 ) (3) {E}(Y_1|T=1) = {E}(Y_1|T=0)= {E}(Y_1) \tag3 E(Y1T=1)=E(Y1T=0)=E(Y1)(3) E ( Y 1 ∣ T = 0 ) {E}(Y_1|T=0) E(Y1T=0)是反事实对照结果,表示如果未干预组样本接受干预的潜在结果。由于一致性假设(将在下面阐述),T=1的潜在结果和实际观测结果一致,即 E ( Y 1 ∣ T = 1 ) = Y ‾ ( 1 ) E(Y_1|T=1)=\overline Y^{(1)} E(Y1T=1)=Y(1)
由于3式成立,
Y ‾ ( 1 ) − Y ‾ ( 0 ) = Δ = E ( Y 1 ) − E ( Y 0 ) \overline Y^{(1)}-\overline Y^{(0)} = \Delta = {E}(Y_1) - {E}(Y_0) Y(1)Y(0)=Δ=E(Y1)E(Y0)

4. 获得ATE无偏估计的假设

4.1 Unconfoundedness

  • conditional ignorability ??

  • exchangeability

    • 对于RCT实验数据,exchangeability Y 1 ⊥ T {Y_1} \bot {T} Y1T,如公式3所示,表示干预T与潜在结果 Y t Y_t Yt无关;
    • 对于观测数据,conditional exchangeability Y 1 ⊥   T ∣ X {Y_1} \bot \ T|X Y1 TX
    • Unconfoundedness is an untestable assumption

4.2 Positivity

  • 0 < P ( T = 1 ∣ X ) < 1 0<P(T=1|X)<1 0<P(T=1X)<1 ,在某个x下,如果全是treatment要么全是control,则无法计算真实ATE,此时causal effect是ill-defined(且在部分概率推到中导致除0)
  • 根据贝叶斯公式,这条假设也叫Overlap between P(X|T=1) & P(X|T=0)
  • 如果某些变量违背此假设,叫positivity violation,某些情况下我们可以外推结果

4.3 Consistency

  • T = t ⇒ Y = Y ( t ) T=t \Rightarrow Y=Y(t) T=tY=Y(t) ,此假设一般默认成立,排除confounder影响后或在实验设计中,所有样本施加同样的T,结果是一致的。举例:T为是否养狗,Y为是否开心,如果只要养狗,Y就等于开心则假设成立。如果养了一只金毛T=1,结果Y=1;养了一只哈士奇T=1,,结果Y=0。说明T定义不合理,需重新设计实验。

5. Adjustment

Adjustment by regression modeling
如果X包含所有confounders(sufficient adjustment sets),则数据满足如下条件:
( Y 0 , Y 1 ) ⊥ T ∣ X {(Y_0,Y_1)} \bot {T|X} (Y0,Y1)TX 给可以理解为,给定 X X X条件下 T T T Y 1 Y_1 Y1垂直,取某个X值时,组里X都是一样,结果差异不由confounders导致,阻断了X->Y的因果路径。

通过观测数据推断因果效应(ATE)公式推导如下:在这里插入图片描述

参考资料

因果推断—原理与方法(深度好文)
Propensity Score Methods总结
Potential Outcome - Brady Neal

本文内容由网友自发贡献,版权归原作者所有,本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容,请联系:hwhale#tublm.com(使用前将#替换为@)

因果推断理论框架 Potenial Outcomes Framework 的相关文章

随机推荐

  • 基于门限算法的SM2协同签名算法分析-openssl源码验证

    基于门限算法的SM2协同签名算法分析 openssl源码验证 介绍 1 协同公钥生成流程 2 协同签名流程 3 正确性分析 4 使用openssl接口进行代码测试 5 测试源码 介绍 门限密码体制 是安全多方计算中对抗合谋攻击的一个重要工具
  • Python实现识别图片内容的方法分析

    Python实现识别图片内容的方法分析 本文实例讲述了Python实现识别图片内容的方法 分享给大家供大家参考 具体如下 python识别图片内容 这里我的环境为windows64位 python2 7 14 需要用到PIL模块和tesse
  • springboot事务管理 注解@Transactional 无效原因,及解决办法

    1 不需要在启动类加上 EnableTransactionManagement EnableTransactionManagement是 spring tx 的注解 不是 spring boot 的 spring boot 会自动配置事务
  • 篇八:冒泡排序

    交换排序的一种 author xiaocui date 2022年08月02日 13 49 public class BubbleSort public static void main String args int arr new in
  • React 列表 & Keys

    React 列表 Keys const numbers 1 2 3 4 5 const listItems numbers map number gt li number li ReactDOM render ul listItems ul
  • leecode 题目5 最长回文子串(python)

    给你一个字符串 s 找到 s 中最长的回文子串 示例 1 输入 s babad 输出 bab 解释 aba 同样是符合题意的答案 示例 2 输入 s cbbd 输出 bb 代码是根据B站上的一位up主写的 使用动态规划算法 从小字符串衍生相
  • css3新弹性盒子-flex-grow

    目录 flex grow 1 flex grow定义和用法 2 flex grow属性值 flex grow说明 flex grow实例 flex grow flex grow属性在CSS新弹性盒模型中是比较常用 想要用好它就先了解它的 语
  • 花卉识别卷积神经网络

    卷积神经网络做的花卉识别 keras 五分类 向日葵 雏菊 郁金香 玫瑰 蒲公英 之后更怎么做的
  • 【专题5: 硬件设计】 之 【68.开关电源 之 buck电路中的电感电流波形】

    嵌入式工程师成长之路 系列文章 总目录 系列文章总目录 希望本是无所谓有 无所谓无的 这正如脚下的路 其实地上本没有路 走的人多了 也便成了路 原创不易 文章会持续更新 欢迎微信扫码关注公众号 承接 小程序 嵌入式 PC端项目开发 联系作者
  • Arduino基础入门篇31—LCD1602液晶显示

    LCD1602也叫1602字符型液晶 是一种专门用来显示字母 数字 符号的点阵型液晶模块 能同时显示16X2即32个字符 本篇我们来认识LCD1602 驱动它显示 Hello World 1 LCD1602介绍 对于单片机爱好者和电子爱好者
  • php-cgi.exe - FastCGI 进程超过了配置的请求超时时限

    解决方案一 处理 php cgi exe FastCGI 进程超过了配置的请求超时时限 的问题 内容转载 处理 php cgi exe FastCGI 进程超过了配置的请求超时时限 的问题 php技巧 脚本之家 详细错误 HTTP 错误 5
  • 【华为OD机试真题 JAVA】出错的或电路

    JS版 华为OD机试真题 JS 出错的或电路 标题 出错的或电路 时间限制 1秒 内存限制 262144K 语言限制 不限 某生产门电路的厂商发现某一批次的或门电路不稳定 具体现象为计算两个二进制数的或操作时 第一个二进制数中某两个比特位会
  • 利用Java对后端数据进行分页处理(Java假分页)

    代码如下 import java util Collections import java util List java分页 辅助器 public class PageHelper
  • HttpClient远程调用工具类

    文章目录 前言 一 HttpClient工具类 二 使用步骤 1 引入库 前言 提示 当前工具类get方式无法传分页数据 可自行篡改 不行就用post方式哈哈 提示 以下是本篇文章正文内容 下面案例可供参考 一 HttpClient工具类
  • Qt中显示摄像头数据(V4L2三)

    目录 一 通过V4l2来采集用qt显示 1 将V4L2获取摄像头数据封装成一个类 2 设置开始按钮开始采集数据 3 设置停止按钮停止采集数据 4 设置定时器不断采集数据 二 直接用qt多媒体模块来实现采集并且显示 1 在qt工程文件中添加
  • 【网络结构设计】7、RepVGG

    文章目录 一 背景 二 方法 2 1 使用简单结构的卷积神经网络的三个原因 2 2 使用多分支结构的训练时长 2 3 边端设备推理的重参数化 2 4 结构细节 三 效果 论文 RepVGG Making VGG style ConvNets
  • 解决野鸡大学水硕、水博?中国首次发布海外大学排名!

    本文分享中国首次发布的海外大学排名 来源 全国高校信息资料研究会与中国人民大学评价研究中心 新东方在线托福 青塔等平台 编辑 学妹 不久前 我国一科研机构首次发布了对海外学校的评估 网传 这或许会成为以后中国看待海归大学的背景考核依据之一
  • 深度学习:循环神经网络RNN及LSTM

    深度学习 循环神经网络RNN及LSTM 循环神经网络RNN 原理 代码 长短期记忆网络LSTM 原理 遗忘门 记忆门 输出门 代码 循环神经网络RNN 原理 对于传统的神经网络 它的信号流从输入层到输出层依次流过 同一层级的神经元之间 信号
  • 两行css代码实现瀑布流,html,css最简单的瀑布流实现方式且没有缺点!

    两行css代码实现瀑布流 html css最简单的瀑布流实现方式且没有缺点 之前一直使用css position定位 js原生的方法实现 代码如下 html代码段
  • 因果推断理论框架 Potenial Outcomes Framework

    1 Potenial Outcomes Framework 因果效应通常无法直接计算 无法同时观测一个样本施加和不施加干预的结果 所以通常是通过观测数据推断 由于相关性 neq 因果性 观测结果不直接等于ATE Potenial Outco