stata学习笔记

2023-11-18

离散被解释变量

  • 二值选择型——二值选择模型
  • 多值选择型——多项选择模型、条件选择、混合
  • 排序数据——排序模型
  • 非负整数计数型——泊松、负二项

二值选择型

采用logit和probit模型(probit即把logit换一下就好)

logit y x1 x2 ,nolog r vce(cluster clustervar) or

estat clas

nolog表示不用显示迭代过程。

vce(cluster cluster)表示运用聚类标准误,由于二值选择模型一般采用稳健标准误的意义不大,所以常常使用聚类标准误。

or 表示结果不是显示系数,而是几率比,解释的话,即变量增加一单位,y变成1 的概率就会增加多少,注意stata直接显示的是倍数,即y选择1状态的概率是另一种的多少倍。

estat clas可以用来计算预测正确的概率,只需看上面那个true表格里的total中的D/Total即为预测正确比率。

当怀疑数据可能出现异方差的时候,可采用下面的代码 varlist表示你认为可能会导致其发生异方差的解释变量。

 hetprob y x1 x2 x3,het(varlist)

 work一栏即表示为对原方程的估计,最后一行显示的p值即表示接受原假设“同方差”

 为什么一般不考虑稳健标准误

因为在两点分布的情况下,稳健标准误就等于MLE的普通标准误,如果模型设定正确,则无需使用稳健标准误。而如果模型设定存在问题,则probit 和logit并不能一致估计相关系数,采用稳健标准误的意义也不存在了。

但可以利用观察稳健标准误情况下是否与普通回归具有较大差距判断模型设定是否存在问题。

 probit和logit有什么区别

总体而言,差别存在于对被解释变量的残差的前提假定不同

probit假定的是正态分布,Logit假定的是logitistic分布

一般来说没有较大的差别

多值选择型 

存在两种变量,分别为随个体而变动的和随方案变动的。

只存在随个体而变的则为多项logit,只存在随方案变动的则为条件logit,两种变量均存在则为混合logit

多项logit

rrr表示显示风险比率,base(n)表示选取哪一组作为对照组,系统默认为样本数量最多的一组。

mlogit y x1 x2 x3,rrr base(n)

 occ中分为menial、Bluecol、Craft、Withecol、Prof五种背景,以结果中的Menial为例,ed(教育程度)的p值表示显著,系数为负,则表示教育程度越高,在Menial(服务行业)和Prof中更愿意选择PRof。

接下来需要判断是否保证了IIA假设前提,即无关方案之间是否是独立的。

分别是豪斯曼检验和smallHsiao检验。

mlogtest,hausman base

mlogtest,smhsiao base

观察p值 均不拒绝IIA原假设。

 接下来还可对每个个体选择这五种职业的概率进行预测。

predict y1 y2 y3 y4 

条件logit

or表示汇报几率比,group表示指定归属同一个体观测值的一组,即个体id等能够包括所有方案的分类。

clogit y x1 x2 x3,group(varname) or

注意选择的y x1 x2 x3分别是什么,choice表示最终是否选择该种交通方式的虚拟变量 ,而train 和bus分别表示是否为该种方案,即例如,对于一个家庭来说有三种旅行方式,每一种旅行方式对应分别的旅行时间和费用,但是最终只会选择一个。

 一般均采用风险比率,图中结果显示在时间和成本相等的情况下,选择火车的概率是自驾的14倍,而时间成本每增加一分钟,选择自驾的概率就乘以0.98,即概率下降0.02。

条件logit也可进行预测

此时无需预测多个变量,因为每一种方案已经都分别列出了一条数据。

predict prob

混合logit 

case指定个体,alternatives指定方案,casevars指定只随个体变动的解释变量

asclogit y x1 x2 x3,case(varname) alternatives(varname) casevars(varmane) base(n) or 

 同样需要注意选择的y x1 x2 x3,此时由于后面的alternatives已经将三种乘车方式进行的区分,在前面则无需列出另外两种的虚拟变量。

 此处的结果解释与前面多项Logit一致。

但是该模型并不输出R方,故可以,手动计算。

asclogit y x1 x2 x3,case(varname) alternatives(varname) casevars(varmane) base(n) nolog or 

asclogit y ,case(varname) alternatives(varname)  base(n) nolog or 

再将二者计算出的Log Like进行计算

dis (log2-log1)/(log2) 

排序型 

当被解释变量存在一定排序关系,例如债券评级等,则需要运用到排序模型。

ologit y x1 x2 x3,nolog

oprobit y x1 x2 x3,nolog

 cut表示的是切点,因为在案例中共有四个等级,所以三个切点。

排序模型最主要的还是进行预测

predict y1 y2 y3 y4

非负整数计数型

泊松回归和负二项回归的抉择 

存在过度分散的情况下,但对被解释变量的方差函数并不清楚地时候,可采取泊松回归+稳健标准误的方式, 但在了解方差函数的情况下,当然负二项回归能够提供更加有效的估计。

也可进行LR检验进行精准判断。

 泊松回归

当被解释变量并不是简单的几个方案之间的选择也不是排序的时候,但只能取非负整数的时候,即考虑泊松回归。

irr表示显示发生比率,exposure(x1)表示将ln(x1)作为解释变量,并令其系数为1,而offset(x1)表示单纯地把x1作为解释变量,其系数为1。

poisson y x1 x2 x3,r irr

poisson y x1 x2 x3,r exposure(x1)

poisson y x1 x2 x3,r offset(x1)

 从结果中,因为选取了几率比,则可以看出pcnv(有前科的比例)每增加一单位,1986年被逮捕的概率下降到原来的0.669倍。

接下来,可以利用sum函数,对被解释变量的统计变量进行观察 

 可以看出方差比平均值大很多,所以更倾向于采用负二项回归。

 负二项回归

泊松回归地前提假设是被解释变量的期望和方差相等,即均等分散。

但在实际数据中往往存在方差明显大于期望的情况,此时急需要采取负二项回归。

dispersion(constant)表示采取NB1模型,默认是采取NB2模型。

nbreg y x1 x2 x3,r exposure(x1)

nbreg y x1 x2 x3,r dispersion(constant) offset(x1)

 结果解读和泊松基本一致,需要注意最后一行的alpha检验,可以看出alpha的95%的置信区间为0.7-1.23,所以可以强烈拒绝alpha为0的原假设,即应该使用负二项回归。

零膨胀

当计数数据中存在大量的0时,需要考虑零膨胀模型。

inflate(varlist)一般均采用inflate(_cons)

zip y x1 x2 x3,inflate(varlist) voung

zinb y x1 x2 x3,inflate(varlist) voung

观察最后的vuong检验的p值,可以发现强烈拒绝标准泊松回归,而应该采用零膨胀。 

本文内容由网友自发贡献,版权归原作者所有,本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容,请联系:hwhale#tublm.com(使用前将#替换为@)

stata学习笔记 的相关文章

随机推荐

  • AndroidStudio显示Minimum supported Gradle version is 6.5

    AndroidStudio显示Minimum supported Gradle version is 6 5错误的解决办法 其实就是你导入的项目使用的Android gradle 插件 与当前你的Android studio 的Androi
  • 树状数组理论与实现

    理论 http www cnblogs com zhangshu archive 2011 08 16 2141396 html 今天听了大神的讲课 了解了点东西 发现是之前学过的 于是试着再写一遍 include
  • flutter text 左对齐_Flutter 基础布局Widgets之Wrap详解

    概述 Wrap好似Row和Column的结合 在横轴的表现和Row一致 而竖轴的表现和Column一致 比如当 this direction Axis horizontal 时 横轴 的child放置不下时就会在竖轴自动扩展一行 构造函数
  • webpack4 devServer 参数分析

    devServer module exports 各个参数 after function app server 在服务内部的所有其他中间件之后 提供执行自定义中间件的功能 allowedHosts array 此选项允许你添加白名单服务 允
  • Nginx路由--Location 的使用

    1 Location 语法规则 语法规则 location uri 首先匹配 其次匹配 其次是按文件中顺序的正则匹配 最后是交给 通用 匹配 当有匹配成功时候 停止匹配 按当前匹配规则处理请求 符号 含义 开头表示精确匹配 开头表示 uri
  • docker 与 k8s

    kubernetes 简称k8s 因为k和s 中间有 ubernete 8个单词 所以简称k8s 是一个开源的 用于管理云平台中多个主机上的容器化的应用 k8s 的目标是让部署容器化的应用简单并且高效 k8s 提供了应用部署 规划 更新 维
  • SQL注入类型

    SQL注入类型详解 SQL 注入是指web应用程序对用户输入数据控制不严格 导致用户输入数据被拼接到SQL语句中被数据库执行导致的安全问题 按照注入方式可以分为联合注入 布尔盲注 时间盲注 堆叠注入以及报错注入等五种注入方式 在sql注入时
  • Pygame详解(十二):Surface 对象

    pygame Surface Pygame 中用于表示图像的对象 Surface width height flags 0 depth 0 masks None gt Surface Surface width height flags 0
  • 崩坏3》画面效果为何惊艳?看米哈游怎么做卡通渲染的你就明白了

    http youxiputao com articles 11839 崩坏3 上架以来 我们看到了卡通渲染技术在游戏领域的高品质画面表现力 米哈游对这种技术恰到好处的运用也让 崩坏3 受到了广大玩家的喜爱 以及业内诸多从业人士的认可 事实上
  • Java正则校验密码至少包含:字母数字特殊符号中的2种

    一 语法 字符 说明 将下一字符标记为特殊字符 文本 反向引用或八进制转义符 例如 n匹配字符 n n 匹配换行符 序列 匹配 匹配 匹配输入字符串开始的位置 如果设置了 RegExp 对象的 Multiline 属性 还会与 n 或 r
  • 软件测试工程师自我介绍(范本)

    一 先介绍自己的基本信息 要注意扬长避短 1 年纪太大与太小 就不要主动去说明 比如你的年纪只有20岁 例子 我叫 从事软件测试工作有几年了 2 不是计算机相关专业毕业的也不要过多的去提 比如你的专业是机械专业 例子 我叫 从事软件测试工作
  • python selenium 滑动验证码

    def png from PIL import Image img Image open 1 png z img size data img convert RGB load for i in range z 0 dd for e in r
  • 【CMD】执行adb devices找不到设备的问题

    首先描述一下当时遇到的情况 手机USB连接电脑提示正常 设备管理器显示手机设备正常 问题是执行命令adb devices找不到设备 在Windows系统 资源管理器下 找到Android Sdk路径打开 看看那个文件夹platform to
  • spring的jdbcTemplate批量添加数据,单条数据中文正常,多数据第二条数据开始中文乱码

    今天用spring的jdbcTemplate org springframework jdbc core JdbcTemplate 批量添加数据 方法是jdbcTemplate bathUpdate 然后遇到一个很神奇的问题 批量添加的数据
  • 【精】彻底吃透HDFS写流程(5)-- DataStreamer线程类run方法分析以及如何构建pipeline?

    有关HDFS写流程的系列文章 精 彻底吃透HDFS写流程 1 BlockConstructionStage 精 彻底吃透HDFS写流程 2 Namenode侧create文件 精 彻底吃透HDFS写流程 3 DataStreamer线程和输
  • Android Studio及JDK完整详细安装

    本博文源于安卓基础旨在讨论如何搭建Android开发环境 下面进入步骤 了解安卓开发需要的工具 安装步骤 安装文件的下载 JDK的安装 Android Studio的安装与Android SDK的下载 基本开发的环境配置 安装文件的准备 首
  • 还是 “月饼” 后续,玩转炫彩 “月饼” 之 问题说明

    画一个 月饼 陪我过中秋 开发板后续问题跟进说明 目录 前言 一 出现问题 二 寻求办法 三 若有所思 四 问题测试 结语 悬赏送开发板 前言 本文有纯理论玩家是永远不会经历的实际问题 嵌入式工程师不动手永远出不了作品 本文最后有送开发板的
  • sqoop初步使用

    一 概述 Sqoop是一款开源的数据导入导出工具 可以将传统的关系型数据库导出至HDFS 也可以将HDFS中的数据导出至关系型数据库 官网 http sqoop apache org 原理 在Hadoop生态体系中 计算基本依赖于MR 那么
  • PHP如何使用Ds\Queue Capacity()函数?代码实例

    Ds Queue capacity PHP中的函数用于检查Queue实例的当前容量 语法 int public Ds PriorityQueue capacity void 参数 此功能不接受任何参数 返回值 此函数返回Queue实例的当前
  • stata学习笔记

    离散被解释变量 二值选择型 二值选择模型 多值选择型 多项选择模型 条件选择 混合 排序数据 排序模型 非负整数计数型 泊松 负二项 二值选择型 采用logit和probit模型 probit即把logit换一下就好 logit y x1