【抽样技术】CH2 简单随机抽样补充——比率估计与回归估计

2023-11-11

目录

一、概述

1.问题的提出

2.比率估计与回归估计的作用和使用条件

3.辅助变量的特点

4.相关符号

二、比率估计量​编辑 ​编辑

1.问题的提出

2.定义

3.比估计与简单估计的比较

4.比率估计的思想

5.比率估计量及其性质

(1)【引理】

(2)【推论】

(3)比率估计的性质

 (4)【定理2.7】

(5)【推论2.10】

 6.比率估计量的方差估计

7.比率估计与简单估计精度的比较

8.【例】

 9.总结

 三、回归估计

1.回归估计量及其性质

(1)回归估计的含义

(2)回归估计量的性质

 2.回归估计与比率估计、简单估计精度的比较

(1)与简单估计的比较

(2)与比率估计的比较(n较大时)

 3.总结:回归估计的性质

 四、总结

1.各种估计量的比较与选择

 2.应该记住的几个基本公式

 3.应该了解的几个基本公式


一、概述

1.问题的提出

        调查通常是多指标的:

  • 有时我们希望估计不同变量的参数之比(比率)
  • 有时我们可以利用与目标变量高度相关的其他变量来构造目标度量的更好估计,提高目标变量参数估计的精度。被利用的指标称为辅助变量,构造估计量的方法有比率估计回归估计

2.比率估计与回归估计的作用和使用条件

  • 利用辅助变量提供的信息改进简单估计
  • 比率估计使用的条件:辅助变量与目标变量正相关
  • 回归估计的条件:辅助变量与目标变量线性相关

3.辅助变量的特点

  • 辅助变量须与目标变量高度相关
  • 辅助变量与目标变量之间的相关关系稳定
  • 辅助变量质量好,调查成本低
  • 限制条件:辅助变量的总体总值或总体均值要已知

4.相关符号

        设二维总体\pi _{N}=\left \{ (X_{1},Y_{1}),\cdots, (X_{N},Y_{N}) \right \},样本为(x,y)=\left \{ (x_{1},y_{1}),\cdots, (x_{n},y_{n})\right \}

        设调查指标为Y,辅助变量为X,所用的符号。

总体总量  Y,X
总体均值 \bar{Y},\bar{X} 样本均值 \bar{y},\bar{x}
总体方差 S_{Y}^2,S_{X}^2 样本方差 s_{y}^2,s_{x}^2
总体协方差 S_{XY}=\frac{1}{N-1}\sum_{i=1}^{N}(Y_{i}-\bar{Y})(X_{i}-\bar{X}) 样本协方差 s_{xy}=\frac{1}{n}\sum_{i=1}^{n}(y_{i}-\bar{y})(x_{i}-\bar{x})
总体相关系数 \rho =\frac{S_{XY}}{S_{X}S_{Y}} 样本相关系数 \hat{\rho }=\frac{s_{xy}}{s_{x}s_{y}}

二、比率估计量(Ratio estimator)

1.问题的提出

        在许多实际问题中常常涉及两个调查变量(指标)YX。常常要估计总体比率R

        总体比率在形式上总是表现为两个变量总值或均值之比。例如:估计家庭中用于食品的支出在总支出中比重;在校儿童对全体学龄儿童的比重等等。

        比率ratio与比例proportion的区别:比例中总体的规模已知,仅需调查一个指标;比率中需要调查样本的两个指标。

        【问题1】比率R的估计

  • 例如估计家庭中用于食品的支出在总支出中所占的比重,涉及总体中两个不Y同指标的总值或均值,比率中的分子和分母都需要从样本中估计。(与比例估计不同,比例估计时,N已知)

        【问题2】总体均值的比率估计量的构造方法

  • 利用目标变量与辅助变量之间的比例关系,构造比率估计量,提高对目标变量参数估计的精度
  • 例如调查家庭用于食品支出的平均费用,可用家庭总收入作为辅助变量,先计算样本中家庭用于食品支出对总收入的比值(认为该比值在所有家庭中较稳定),然后根据总体家庭平均总收入,可获得所有家庭平均用于食品支出费用的估计

2.定义

        对于简单随机抽样,若\bar{y},\bar{x}是样本两个指标的均值,则总统的这两个指标总值或均值之比值(比率){\color{Red} R=\frac{Y}{X}=\frac{\bar{Y}}{\bar{X}}}{\color{Red} (1)}。比率估计量{\color{Red} \hat{R}=\frac{y}{x}=\frac{\bar{y}}{\bar{x}}} 。

        当调查变量为Y,将X作为辅助变量时,{\color{Red} X/\bar{X}}已知,则\bar{Y}以及Y的比率估计值为

{\color{Red} \left\{\begin{matrix} \hat{\bar{Y_{R}}}=\bar{y_{R}}=\frac{\bar{y}}{\bar{x}}\bar{X}=\bar{X}\hat{R}\\ \hat{Y_{R}}=N\hat{\bar{Y_{R}}}=N\bar{X}\hat{R} \end{matrix}\right.}{\color{Red} (2,3)}

        {\color{Red} (1)(2)(3)}都成为比率估计量,简称比估计。由于(2)(3)中仅与\hat{R}相差常数,所以我们以研究\hat{R}的性质为主。

3.比估计与简单估计的比较

\bar{Y}的简单估计 \bar{y}=\frac{1}{n}\sum_{i=1}^{n}y_{i} 简单估计只利用了样本中指标y的信息(线性组合,称为简单估计)
\bar{Y}的比估计 \bar{y_{R}}=\frac{\bar{y}}{\bar{x}}\bar{X}=\hat{R}\bar{X} 比估计不仅利用了样本中指标y的信息,同时利用了与y密切相关的x的信息以及辅助变量X的信息(称为复杂估计)

4.比率估计的思想

  • \bar{x}>\bar{X}\Rightarrow \bar{y}>\bar{Y};\bar{y_{R}}=\hat{R}\bar{X}=\frac{\bar{y}}{\bar{x}}\bar{X}=\bar{y}\frac{\bar{X}}{\bar{x}}<\bar{y},因而\bar{y_{R}}\bar{y}更靠近\bar{Y}
  • \bar{x}<\bar{X}\Rightarrow \bar{y}<\bar{Y};\bar{y_{R}}=\hat{R}\bar{X}=\frac{\bar{y}}{\bar{x}}\bar{X}=\bar{y}\frac{\bar{X}}{\bar{x}}>\bar{y},因而\bar{y_{R}}\bar{y}更靠近\bar{Y}

5.比率估计量及其性质

(1)【引理】

        对于简单随机抽样,n较大时,\hat{\bar{Y_{R}}}=\bar{y_{R}}的期望为E(\bar{y_{R}})=E(\frac{\bar{y}}{\bar{x}}\bar{X})\approx R\bar{X}=\bar{Y}

(2)【推论】

        对于简单随机抽样,n较大时,E(\hat{Y_{R}})\approx N\bar{X}R=N\bar{Y}=Y

(3)比率估计的性质

  • (1)比率估计是有偏估计
  • (2)比率估计是渐进无偏估计。当n充分大时,E(\hat{R})=R
  • (3)比率估计的均方误差MSE(\hat{R})\approx V(\hat{R})
  • (4)V(\hat{R})\approx \frac{1-f}{n{\bar{X}}^2}\frac{\sum_{i=1}^{N}(Y_{i}-RX_{i})^2}{N-1}= \frac{1-f}{n{\bar{X}}^2}(S_{Y}^2+R^2S_{X}^2-2RS_{XY})
  • (5)v(\hat{R})\approx \frac{1-f}{n{\bar{X}}^2}\frac{\sum_{i=1}^{n}(y_{i}-\hat{R}x_{i})^2}{n-1},v_{1}(\hat{R})= \frac{1-f}{n{\bar{X}}^2}(s_{y}^2+\hat{R}^2s_{x}^2-2\hat{R}s_{xy}),v_{2}(\hat{R})= \frac{1-f}{n{\bar{x}}^2}(s_{y}^2+\hat{R}^2s_{x}^2-2\hat{R}s_{xy})

【注】性质4的证明

 (4)【定理2.7】

        对于简单随机抽样,当n较大时,\hat{Y}_{R}=N\bar{y_{R}}=NR\bar{X}的方差为:

(5)【推论2.10】

        对于简单随机抽样,当n较大时\bar{y_{R}}=\hat{R}\bar{X}的方差为:

 6.比率估计量的方差估计

        思路:根据定理,直接用Y,X的样本方差s^2,s_{x}^2,样本协方差s_{yx}和样本比率\hat{R}=\frac{\bar{y}}{\bar{x}}替代相应比率估计量方差定理中Y,X的总体方差,总体协方差和总体比率。

        置信度为1-\alpha的置信区间为:

7.比率估计与简单估计精度的比较

        统计知识告诉我们:有关信息的充分利用,将会提高估计量的精度。因此,有理由认为:\bar{y_{R}}的精度V(\bar{y_{R}})在一般情况下要高于\bar{y}的精度V(\bar{y})

        设相关系数\rho =\frac{Cov(X,Y)}{\sqrt{V(X)}\sqrt{V(Y)}}=\frac{S_{XY}}{S_{X}S_{Y}}\Rightarrow S_{XY}=\rho S_{X}S_{Y}X,Y的变异系数分别为C_{X}=\frac{S_{X}}{\bar{X}},C_{Y}=\frac{S_{Y}}{\bar{Y}},有如下结论:

{\color{Red} \rho >\frac{1}{2}\frac{C_{X}}{C_{Y}}\Rightarrow V(\bar{y}_{R})<V(\bar{y});especially,whenC_{X}\approx C_{Y},\rho >\frac{1}{2},V(\bar{y}_{R})<V(\bar{y})}

{\color{Blue} proof:}

8.【例】

 9.总结

 三、回归估计

        使用回归估计的原因:比率估计使用的前提是Y与辅助变量X之间基本呈正比例关系;若X,Y之间关系密切,但YX的回归线不通过原点,则可以通过回归估计来提高估计的效率。

1.回归估计量及其性质

(1)回归估计的含义

        前提:存在与主要变量高度相关的其他辅助变量的有效信息。

        已知辅助变量X的总体均值;总体均值\bar{Y}的回归估计量定义为:

{\color{Red} \bar{y}_{lr}=\bar{y}+\beta (\bar{X}-\bar{x})}

其中, \beta =\frac{\partial (\bar{y}_{lr})}{\partial (\bar{x})}是目标变量相对于辅助变量的变化率。

        定义:总体均值\bar{Y}与总体总值Y的回归估计定义为:

\left\{\begin{matrix} \bar{y}_{lr}=\bar{y}+\beta (\bar{X}-\bar{x})\\ \hat{Y}_{lr}=N\bar{y}_{lr} \end{matrix}\right.

特别,\beta =1时的估计称为差估计:\bar{y}_{d}=\bar{y}+(\bar{X}-\bar{x})\beta =0时的估计称为简单估计:\bar{y}_{lr}=\bar{y}\beta =\hat{R}=\frac{\bar{y}}{\bar{x}}时的估计称为比率估计:\bar{y}_{lr}=\bar{y}_{r}。因此,简单估计与比率估计均为回归估计的特例。

(2)回归估计量的性质

        \beta为事先给定的常数\beta _{0}时:\bar{y}_{lr}=\bar{y}+\beta_{0}(\bar{X}-\bar{x}),则\bar{y}_{lr}\bar{Y}无偏估计

        \beta事先给定的常数\beta _{0}时:\bar{y}_{lr}可看成是变量Y_{i}+\beta _{0}(\bar{X}-X_{i})的样本均值,其总体均值为\bar{Y},由关于样本均值方差的核心公式可得:

        \bar{y}_{lr}方差估计为:

         \beta _{0}的不同取值会影响V(\bar{y}_{lr})的值,\beta _{0}的最佳值是?可以证明,\beta _{0}YX的总体回归系数为:

方差V(\bar{y}_{lr})达到最小值:

        \beta未知(需要由样本数据估计)的情形:一般情形下总体回归系数\beta未知,此时一个较好的选择是用样本回归系数b替代总体回归系数\beta,构造回归估计:

 2.回归估计与比率估计、简单估计精度的比较

        \beta需要由样本估计(b=\frac{s_{yx}}{s_{x}^2}=\frac{\sum_{i=1}^{n}(y_{i}-\bar{y})(x_{i}-\bar{x})}{\sum_{i=1}^{n}(x_{i}-\bar{x})^2})的情形:

(1)与简单估计的比较

        由于0\leqslant \rho \leqslant 1,所以n较大时:

 故回归估计优于简单估计。

(2)与比率估计的比较(n较大时)

 3.总结:回归估计的性质

        定义主要变量的总体总值Y的回归估计量为\hat{Y}_{lr}=N\bar{y}_{lr}

        辅助变量X的特点:

  • 辅助变量必须与主要变量高度相关
  • 辅助变量与主要变量之间的相关关系整体上相当稳定
  • 辅助变量的信息质量好
  • 辅助变量的总体均值或总值已知,或容易获得

1.对于简单随机抽样,如\beta为常数\beta _{0},则有:

2.使回归估计量的估计精度最高,即V(\bar{y}_{lr})最小的\beta _{0}为:

3.对于简单随机抽样,若回归系数\beta需要通过样本估计,当n足够大时,\bar{y}_{lr}的数学期望与方差分别为:

 四、总结

1.各种估计量的比较与选择

 2.应该记住的几个基本公式

 3.应该了解的几个基本公式


本文内容由网友自发贡献,版权归原作者所有,本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容,请联系:hwhale#tublm.com(使用前将#替换为@)

【抽样技术】CH2 简单随机抽样补充——比率估计与回归估计 的相关文章

随机推荐

  • 【闲谈】对于华为提出的“端云协同”渲染模式的一些看法

    本帖的主要内容 是发表一些对于华为 端云协同 的顾虑 端云协同是好事 我们本地算力可以云化 本地近乎走瘦终端路线 但这就会引发问题 这将大大增加运营商的网络传输流量业务 所以宽带套餐应该会又有变革 那不得不说一些现实点的状况 一 家用宽带可
  • sqli-labs:less-28(过滤了union和select)

    div div
  • C++——#ifndef和#ifdef宏定义的使用及作用介绍

    建议结合以下博客理解 头文件重复引用 https blog csdn net shenlanzifa article details 21071443 ifndef和 ifdef都是一种宏定义判断 作用是防止多重定义 ifndef是if n
  • element-plus 表单验证

    表单验证是使用率比较高的 和之前element版本也有些差别
  • 科技风UI除了蓝色,还有什么配色选择?

    今年做了一年的科技风 看到蓝色也是甚是觉得审美疲劳 在同类产品中体现出差异性也比较困难 寻思着除了蓝色 就没有别的配色选择了吗 通过对科技类设计的搜集 总结了科技风产品的配色文章参考 尽管我今年对蓝色够够了 但还是要分析下它作为FUI首选配
  • windows下,unity项目突然无法打开的挽救办法

    情景 项目在某次关机后就再也无法通过unity正常打开了 换了机器和unity版本也依然不行 如果你没做存档想必这是个令人非常崩溃的事情 但还有一种挽救的办法 至少是一种可能挽救的办法 那就是使用其他平台的unity打开项目 unity有w
  • 【Python网络蜘蛛】基础 - 多线程和多进程的基本原理

    文章目录 多线程和多进程的基本原理 多线程的含义 并发和并行 Python中的多线程和多进程 多线程和多进程的基本原理 在编写爬虫程序的时候 为了提高爬取效率 我们可能会同时运行多个爬虫任务 其中同样涉及多进程和多线程 多线程的含义 先了解
  • 面试官:为什么MySQL的索引要使用B+树,而不是其它树?比如B树?

    点击上方 Java之间 选择 置顶或者星标 你关注的就是我关心的 来源 https dwz cn exC8JdQS 上一篇 InnoDB的一棵B 树可以存放多少行数据 答案 约2千万 为什么是这么多 因为这是可以算出来的 要搞清楚这个问题
  • pandas创建与保存(导入与导出)dataframe

    文章目录 一 创建Dataframe 1 创建空dataframe 2 从list 创建dataframe 把list当做一列 把list当做一行 3 从 dict key value 创建dataframe 4 从 CSV 创建dataf
  • 布局数据存储,中国电子云意在何为?

    数据存储市场的未来在哪里 答案毋庸置疑是 云端 著名咨询机构Wikibon曾经做过一项统计 将全球三大云服务商的数据存储营收与传统存储厂商的营收进行对比 发现云服务商的数据存储业务规模已然赶上传统存储厂商 这揭示出一个不可阻挡的趋势 即随着
  • 线性回归算法(二)-- 最优解与损失函数

    介绍 要理解最优解和损失函数 我们需要先弄明白什么是误差 以简单线性回归为例 如下图所示 青色数据样本为真实值 y y y 直线上同一 x x x位置的红色样本点为预测值
  • qt操作第三方软件

    QT控制第三方软件方法 背景需求 实现思路 获取句柄方法 QT通过获取的信息操作 例子 控件ID为0或者控件ID和操作句柄相同怎么办 得到窗体x y height width 模拟键盘鼠标操作 附录 键值对照表 背景需求 通过前辈们写的软体
  • Shell--基础--06--传递参数

    Shell 基础 06 传递参数 1 介绍 我们可以在执行 Shell 脚本时 向脚本传递参数 1 1 脚本内获取参数的格式 格式为 n n 代表一个数字 0 执行的文件名 1 为执行脚本的第一个参数 2 为执行脚本的第二个参数 以此类推
  • AI时代,重新理解阿里云

    如果说 在数字化时代 阿里云给外界的标签是基于算力 数据等要素的基建角色 那么 在如今的智能化时代 基于自身强大的云计算能力和长期以往的AI技术积累 它的这种底座底色显然再一次被夯实 彰显 作者 皮爷 出品 产业家 宜昌城东大道 左侧是中国
  • DirectX编程:利用 DirectSound 录音

    DirectX编程 利用 DirectSound 录音 转载 http www cnblogs com stg609 archive 2008 10 24 1318931 html 花了一阵子 把DirectX安装后自带的帮助文件中的那部分
  • ES时间分组统计查询

    创建索引 PUT test 索引结构 PUT test mapping properties insertTime type date id type text fields keyword type keyword ignore abov
  • halcon之Blob分析实战

    Blob分析 Blob Analysis 在计算机视觉中的Blob是指图像中的具有相似颜色 纹理等特征所组成的一块连通区域 Blob分析 Blob Analysis 是对图像中相同像素的连通域进行分析 该连通域称为Blob 其过程其实就是将
  • 【数据结构】栈

    文章目录 1 栈的概念及结构 2 栈的实现 2 1栈的实现思路 2 2概念理解题 2 3栈的结构体定义 2 4函数接口 功能 2 5头文件Stack h 2 6函数实现Stack c 2 7测试函数Test c 2 8有效的括号 利用栈实现
  • Oracl之动态Sql编写总结

    一 概述 在通常的sql操作中 sql语句基本上都是固定的 如 SELECT t empno t ename FROM scott emp t WHERE t deptno 20 但有的时候 从应用的需要或程序的编写出发 都可能需要用到动态
  • 【抽样技术】CH2 简单随机抽样补充——比率估计与回归估计

    目录 一 概述 1 问题的提出 2 比率估计与回归估计的作用和使用条件 3 辅助变量的特点 4 相关符号 二 比率估计量 编辑 编辑 1 问题的提出 2 定义 3 比估计与简单估计的比较 4 比率估计的思想 5 比率估计量及其性质 1 引理