2017 Uri Shalit & Fredrik D. Johansson:Jobs

2023-11-08

  1986年,Lalonde公开的一个数据集,被因果推理社区作为了基准数据集。在该数据集中,干预(即Treatment)为是否接受就业培训,结果(Outcomes)是收入和就业状况。2005年,Smith & Todd结合了国家对工作工程统计的观测性数据,扩展成了一个更大的数据集——随机分组使得因果效应的ground truth可以被估计。这项数据集共包含8个协变量,比如说年龄、教育程度、先前收入…本文在此基础上,采用2002年Dehejia & Wahba提出的特征集,构建了一个二元分类任务,Jobs,其目标是去预测是否未来失业。基于2005年Smith & Todd的研究工作,本文用到的数据样本来自LaLonde数据集(干预组:297;控制组:425)和PSID对比组(控制组:2490)。截至研究结束,共有482名受试者(约15%)失业。我们按比例56/24/20随机划分train/validation/test数据集,并做了10次实验,然后将其结果平均。

  因为所有干预组成员(297)都是原始随机样本E(LaLonde数据集)的一部分,因此我们可以估计干预组的平均干预效应: A T T = ∣ T ∣ − 1 ∑ i ∈ T y i − ∣ C ∩ E ∣ − 1 ∑ i ∈ C ∩ E y i \mathrm{ATT}=|T|^{-1} \sum_{i \in T} y_{i}-|C \cap E|^{-1} \sum_{i \in C \cap E} y_{i} ATT=T1iTyiCE1iCEyi,其中 C C C代表控制组。估计误差即为: ϵ A T T = ∣ A T T − 1 ∣ T ∣ ∑ i ∈ T ( f ( x i , 1 ) − f ( x i , 0 ) ) ∣ \epsilon_{\mathrm{ATT}}=| \mathrm{ATT}-\frac{1}{|T|} \sum_{i \in T}\left(f\left(x_{i}, 1\right)-\right.\left.f\left(x_{i}, 0\right)\right)| ϵATT=ATTT1iT(f(xi,1)f(xi,0))。在这个数据集上我们无法评估 ϵ P E H E \epsilon_{\mathrm{PEHE}} ϵPEHE,因为我们没有可用于 I T E ITE ITE评估的 g r o u n d ground ground t r u t h truth truth。因此,为了评估模型 I T E ITE ITE估计的性能,我们选取的指标为:策略风险。 I T E ITE ITE估计器采用策略在训练时的策略风险被视为平均损失(loss)。在本文设计中,对于模型函数 f f f,我们的干预策略为: π f ( x ) = 1 , f ( x , 1 ) − f ( x , 0 ) > λ \pi_{f}(x)=1,f(x, 1)-f(x, 0)>\lambda πf(x)=1f(x,1)f(x,0)>λ;我们的控制策略为: π f ( x ) = 1 , o t h e r w i s e \pi_{f}(x)=1,otherwise πf(x)=1otherwise。该策略风险即为: R P o l ( π f ) = 1 − ( E [ Y 1 ∣ π f ( x ) = 1 ] ⋅ p ( π f = 1 ) + E [ Y 0 ∣ π f ( x ) = 0 ] ⋅ p ( π f = 0 ) ) R_{\mathrm{Pol}}\left(\pi_{f}\right)=1-\left(\mathbb{E}\left[Y_{1} | \pi_{f}(x)=1\right] \cdot p\left(\pi_{f}=1\right) +\mathbb{E}\left[Y_{0} | \pi_{f}(x)=0\right] \cdot p\left(\pi_{f}=0\right)\right) RPol(πf)=1(E[Y1πf(x)=1]p(πf=1)+E[Y0πf(x)=0]p(πf=0))。我们可以采用下式估计随机试验子集的策略风险值 R ^ P o l ( π f = 1 − ( E [ Y 1 ∣ π f ( x ) = 1 , t = 1 ] ⋅ p ( π f = 1 ) + E [ Y 0 ∣ π f ( x ) = 0 , t = 0 ] ⋅ p ( π f = 0 ) ) \hat{R}_{\mathrm{Pol}}\left(\pi_{f}=1-\left(\mathbb{E}\left[Y_{1} | \pi_{f}(x)=1, t=1\right] \cdot p\left(\pi_{f}=1\right)+\mathbb{E}\left[Y_{0} | \pi_{f}(x)=0, t=0\right] \cdot p\left(\pi_{f}=0\right)\right)\right. R^Pol(πf=1(E[Y1πf(x)=1,t=1]p(πf=1)+E[Y0πf(x)=0,t=0]p(πf=0))  干预阈值 λ λ λ的函数风险如下图所示,按干预比例排列。
在这里插入图片描述

本文内容由网友自发贡献,版权归原作者所有,本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容,请联系:hwhale#tublm.com(使用前将#替换为@)

2017 Uri Shalit & Fredrik D. Johansson:Jobs 的相关文章

随机推荐

  • 47 最佳实践-性能最佳实践-PV-qspinlock

    文章目录 47 最佳实践 性能最佳实践 PV qspinlock 47 1 概述 47 2 操作指导 47 最佳实践 性能最佳实践 PV qspinlock 47 1 概述 PV qspinlock主要是针对虚拟化CPU超分场景自旋锁的优化
  • R语言3.13 绘图

    plot函数 plot 可绘制数据的散点图 曲线图等 plot x y 其中x和y是向量 生成x和y的散点图 plot x 其中x是一时间序列 生成时间序列图形 如果x是向量 则产生x关于下标的散点图 如果x是复向量 则绘出复数的实部与虚部
  • C/C++/QT中的字符串

    目录 C语言中的字符串 C 语言中的字符串 Qt中的字符串 C语言str系列库函数 sizeof strlen length 和size 字符串中含有 r n 打印时不换行问题 C语言中的字符串 C语言不存在字符串数据类型 其通过一个以 0
  • Xilinx FPGA未使用管脚上下拉状态配置(ISE和Vivado环境)

    文章目录 ISE开发环境 Vivado开发环境 方式1 XDC文件约束 方式2 生成选项配置 ISE开发环境 ISE开发环境 可在如下Bit流文件生成选项中配置 右键点击Generate Programming File 选择Process
  • windows虚拟机安装Mac OS系统(操作图解)

    背景 因为工作需要学习ios开发 但是苹果电脑申请了还没审批下来所以想着先搭建一个虚拟机来熟悉开发环境 安装环境 windows vmware 16 Pro 一 准备工作 1 vmware 16 Pro 下载 2 unlocker 下载地址
  • 隐藏WiFi信号的小技巧

    隐藏WiFi信号方法 首先用手机或电脑连上路由器的WiFi网络 在浏览器地址栏输入路由器登陆地址并打开 地址一般在路由器的底部都有标注的 输入用户名与密码 很多路由器默认的账号 密码都是admin 进入路由器管理界面找到无线设置 然后找到
  • java版本微信机器人使用教程V1.0

    大家好 我是雄雄 欢迎关注微信公众号雄雄的小课堂 现在是 2023年5月10日17 57 02 免费的云桌面 每个人都能领三个月 用来跑机器人还是很不错的 领取连接 前言 历经好多天 java版本的微信机器人终于写完了初版了 接下来开放注册
  • 面向对象课程学习

    设计一般流程 黑盒 1用例分析 白盒 2 识别类 分析阶段只identify 问题领域的类 设计阶段可能添加软件世界特有的类 或者 3 识别类之间的关系 关联 泛化 聚合 组合 依赖 4 画顺序图 结合用例图 完善类图 类图是结构设计 顺序
  • 工具使用:ImageTools图片处理 (ImageMagick)

    需要注意的是 在mac和linux上不要添加imageMagickPath 和设置 convert setSearchPath imageMagickPath public class ImageTools ImageMagick的路径 p
  • python实验1

    在pycharm中编写一个Python程序 导入数学模块math 从键盘输入一个整数 然后调用Math中的数学函数sqrt 计算该数的平方根 输出结果 第一种 a float input 请输入一个整数 x a 0 5 print x 运行
  • Vulkan是什么?和我一起完成一个简单的Vulkan应用程序

    Vulkan是什么 和我一起完成一个简单的Vulkan应用程序 在本章 你将学到 Vulkan以及它背后的基本原理 如何创建一个最简单的Vulkan应用程序 在本书其余部分将使用到的术语和概念 本章将介绍并解释Vulkan是什么 我们会介绍
  • 敲七游戏-java

    题目描述 写程序无聊 玩个游戏 从1开始喊数 数到含7或者是7的倍数的要拍键盘 那么问题来了 请你 输出7和7的倍数 还有包含7的数字例如 17 27 37 70 71 72 73 输入 一个整数N N不大于30000 输出 统计出不大于N
  • 蓝库云|一文搞懂什么是MES(制造执行系统),制造业该如何选择

    MES Manufacturing Execution System 是一种将制造过程可视化并为工人提供指导和支持的系统 它的优势在于可以优化人员 机器和设备等资源 消除制造对个人技能的依赖 在本文中 蓝库云将以通俗易懂的方式说明MES的概
  • 【CV】扩散模型(Diffusion Models)

    大家好 我是Sonhhxg 柒 希望你看完之后 能对你有所帮助 不足请指正 共同学习交流 个人主页 Sonhhxg 柒的博客 CSDN博客 欢迎各位 点赞 收藏 留言 系列专栏 机器学习 ML 自然语言处理 NLP 深度学习 DL fore
  • Apple(苹果)忘记安全问题答案怎么办?

    方法一 通过 救援电子邮件 找回 其实 针对 忘记Apple ID安全提示问题的答案 这个问题 苹果官方有一个专门的指导页面 http support apple com kb HT6170 viewlocale zh CN 里面有非常详细
  • buuctf-misc(部分)

    爱因斯坦 附件下载下来是一张图片 先用winhex看下 典型的压缩文件形式 binwalk 分离前先把上次的output文件夹删除 老一套 加密的文件 但这次题目没有给我们具体的提示 先猜测一手题目名爱因斯坦是4位 先尝试一下4位数纯数字密
  • java基础01:==与equals

    Java数据类型在执行过程中存储在两种不同形式的内存中 栈和堆 它们通常由运行Java虚拟机 JVM 的底层平台维护 基础类型是直接在栈中分配的 引用类型是引用了堆中的内存地址 对比的是栈中的值 基本数据类型是变量值 引用类型是堆中内存对象
  • @ControllerAdvice注解的使用

    系列文章目录 SpringBoot框架实现邮件发送 上 SpringBoot框架实现邮件发送 下 Java中获取控制台输出的数据 Spring Cache的详细使用 Redis 文章目录 系列文章目录 前言 一 ControllerAdvi
  • Idea|Failed to configure a DataSource: ‘url‘ attribute is not specified and no embedded datasource c

    问题排查 1 问题背景 2 问题截图 3 问题分析 4 问题解决 号外 后续补充的解决办法 5 一句话复盘 1 问题背景 从仓库拉去代码以后 通过idea进行import 往事俱备 启动服务 然后 出现了一个错误提示信息 Descripti
  • 2017 Uri Shalit & Fredrik D. Johansson:Jobs

    1986年 Lalonde公开的一个数据集 被因果推理社区作为了基准数据集 在该数据集中 干预 即Treatment 为是否接受就业培训 结果 Outcomes 是收入和就业状况 2005年 Smith Todd结合了国家对工作工程统计的观