【抽样技术】CH2 简单随机抽样补充——比率估计与回归估计

总体总量	$Y,X$
总体均值	$\bar{Y},\bar{X}$	样本均值	$\bar{y},\bar{x}$
总体方差	$S_{Y}^2,S_{X}^2$	样本方差	$s_{y}^2,s_{x}^2$
总体协方差	$S_{XY}=\frac{1}{N-1}\sum_{i=1}^{N}(Y_{i}-\bar{Y})(X_{i}-\bar{X})$	样本协方差	$s_{xy}=\frac{1}{n}\sum_{i=1}^{n}(y_{i}-\bar{y})(x_{i}-\bar{x})$
总体相关系数	$\rho =\frac{S_{XY}}{S_{X}S_{Y}}$	样本相关系数	$\hat{\rho }=\frac{s_{xy}}{s_{x}s_{y}}$

二、比率估计量 $(Ratio$ $estimator)$

1.问题的提出

在许多实际问题中常常涉及两个调查变量（指标） $Y$ 和 $X$ 。常常要估计总体比率 $R$ 。

总体比率在形式上总是表现为两个变量总值或均值之比。例如：估计家庭中用于食品的支出在总支出中比重；在校儿童对全体学龄儿童的比重等等。

比率 $ratio$ 与比例 $proportion$ 的区别：比例中总体的规模已知，仅需调查一个指标；比率中需要调查样本的两个指标。

【问题1】比率 $R$ 的估计

例如估计家庭中用于食品的支出在总支出中所占的比重，涉及总体中两个不 $Y$ 同指标的总值或均值，比率中的分子和分母都需要从样本中估计。（与比例估计不同，比例估计时， $N$ 已知）

【问题2】总体均值的比率估计量的构造方法

利用目标变量与辅助变量之间的比例关系，构造比率估计量，提高对目标变量参数估计的精度
例如调查家庭用于食品支出的平均费用，可用家庭总收入作为辅助变量，先计算样本中家庭用于食品支出对总收入的比值（认为该比值在所有家庭中较稳定），然后根据总体家庭平均总收入，可获得所有家庭平均用于食品支出费用的估计

2.定义

对于简单随机抽样，若 $\bar{y},\bar{x}$ 是样本两个指标的均值，则总统的这两个指标总值或均值之比值（比率） ${\color{Red} R=\frac{Y}{X}=\frac{\bar{Y}}{\bar{X}}}{\color{Red} (1)}$ 。比率估计量 ${\color{Red} \hat{R}=\frac{y}{x}=\frac{\bar{y}}{\bar{x}}}$ 。

当调查变量为 $Y$ ，将 $X$ 作为辅助变量时， ${\color{Red} X/\bar{X}}$ 已知，则 $\bar{Y}$ 以及 $Y$ 的比率估计值为

${\color{Red} \left\{\begin{matrix} \hat{\bar{Y_{R}}}=\bar{y_{R}}=\frac{\bar{y}}{\bar{x}}\bar{X}=\bar{X}\hat{R}\\ \hat{Y_{R}}=N\hat{\bar{Y_{R}}}=N\bar{X}\hat{R} \end{matrix}\right.}{\color{Red} (2,3)}$

${\color{Red} (1)(2)(3)}$ 都成为比率估计量，简称比估计。由于 $(2)(3)$ 中仅与 $\hat{R}$ 相差常数，所以我们以研究 $\hat{R}$ 的性质为主。

3.比估计与简单估计的比较

$\bar{Y}$ 的简单估计	$\bar{y}=\frac{1}{n}\sum_{i=1}^{n}y_{i}$	简单估计只利用了样本中指标 $y$ 的信息（线性组合，称为简单估计）
$\bar{Y}$ 的比估计	$\bar{y_{R}}=\frac{\bar{y}}{\bar{x}}\bar{X}=\hat{R}\bar{X}$	比估计不仅利用了样本中指标 $y$ 的信息，同时利用了与 $y$ 密切相关的 $x$ 的信息以及辅助变量 $X$ 的信息（称为复杂估计）

4.比率估计的思想

$\bar{x}>\bar{X}\Rightarrow \bar{y}>\bar{Y};\bar{y_{R}}=\hat{R}\bar{X}=\frac{\bar{y}}{\bar{x}}\bar{X}=\bar{y}\frac{\bar{X}}{\bar{x}}<\bar{y}$ ，因而 $\bar{y_{R}}$ 比 $\bar{y}$ 更靠近 $\bar{Y}$
$\bar{x}<\bar{X}\Rightarrow \bar{y}<\bar{Y};\bar{y_{R}}=\hat{R}\bar{X}=\frac{\bar{y}}{\bar{x}}\bar{X}=\bar{y}\frac{\bar{X}}{\bar{x}}>\bar{y}$ ，因而 $\bar{y_{R}}$ 比 $\bar{y}$ 更靠近 $\bar{Y}$

5.比率估计量及其性质

（1）【引理】

对于简单随机抽样， $n$ 较大时， $\hat{\bar{Y_{R}}}=\bar{y_{R}}$ 的期望为 $E(\bar{y_{R}})=E(\frac{\bar{y}}{\bar{x}}\bar{X})\approx R\bar{X}=\bar{Y}$

（2）【推论】

对于简单随机抽样， $n$ 较大时， $E(\hat{Y_{R}})\approx N\bar{X}R=N\bar{Y}=Y$

（3）比率估计的性质

$(1)$ 比率估计是有偏估计
$(2)$ 比率估计是渐进无偏估计。当n充分大时， $E(\hat{R})=R$
$(3)$ 比率估计的均方误差 $MSE(\hat{R})\approx V(\hat{R})$
$(4)$ $V(\hat{R})\approx \frac{1-f}{n{\bar{X}}^2}\frac{\sum_{i=1}^{N}(Y_{i}-RX_{i})^2}{N-1}= \frac{1-f}{n{\bar{X}}^2}(S_{Y}^2+R^2S_{X}^2-2RS_{XY})$
$(5)$ $v(\hat{R})\approx \frac{1-f}{n{\bar{X}}^2}\frac{\sum_{i=1}^{n}(y_{i}-\hat{R}x_{i})^2}{n-1}$ , $v_{1}(\hat{R})= \frac{1-f}{n{\bar{X}}^2}(s_{y}^2+\hat{R}^2s_{x}^2-2\hat{R}s_{xy})$ , $v_{2}(\hat{R})= \frac{1-f}{n{\bar{x}}^2}(s_{y}^2+\hat{R}^2s_{x}^2-2\hat{R}s_{xy})$

【注】性质4的证明

（4）【定理2.7】

对于简单随机抽样，当n较大时， $\hat{Y}_{R}=N\bar{y_{R}}=NR\bar{X}$ 的方差为：

（5）【推论2.10】

对于简单随机抽样，当n较大时 $\bar{y_{R}}=\hat{R}\bar{X}$ 的方差为：

6.比率估计量的方差估计

思路：根据定理，直接用 $Y,X$ 的样本方差 $s^2,s_{x}^2$ ，样本协方差 $s_{yx}$ 和样本比率 $\hat{R}=\frac{\bar{y}}{\bar{x}}$ 替代相应比率估计量方差定理中 $Y,X$ 的总体方差，总体协方差和总体比率。

置信度为 $1-\alpha$ 的置信区间为：

7.比率估计与简单估计精度的比较

统计知识告诉我们：有关信息的充分利用，将会提高估计量的精度。因此，有理由认为： $\bar{y_{R}}$ 的精度 $V(\bar{y_{R}})$ 在一般情况下要高于 $\bar{y}$ 的精度 $V(\bar{y})$ 。

设相关系数 $\rho =\frac{Cov(X,Y)}{\sqrt{V(X)}\sqrt{V(Y)}}=\frac{S_{XY}}{S_{X}S_{Y}}\Rightarrow S_{XY}=\rho S_{X}S_{Y}$ ； $X,Y$ 的变异系数分别为 $C_{X}=\frac{S_{X}}{\bar{X}},C_{Y}=\frac{S_{Y}}{\bar{Y}}$ ，有如下结论：

${\color{Red} \rho >\frac{1}{2}\frac{C_{X}}{C_{Y}}\Rightarrow V(\bar{y}_{R})<V(\bar{y});especially,whenC_{X}\approx C_{Y},\rho >\frac{1}{2},V(\bar{y}_{R})<V(\bar{y})}$

${\color{Blue} proof:}$

8.【例】

9.总结

三、回归估计

使用回归估计的原因：比率估计使用的前提是 $Y$ 与辅助变量 $X$ 之间基本呈正比例关系；若 $X,Y$ 之间关系密切，但 $Y$ 对 $X$ 的回归线不通过原点，则可以通过回归估计来提高估计的效率。

1.回归估计量及其性质

（1）回归估计的含义

前提：存在与主要变量高度相关的其他辅助变量的有效信息。

已知辅助变量 $X$ 的总体均值；总体均值 $\bar{Y}$ 的回归估计量定义为：

${\color{Red} \bar{y}_{lr}=\bar{y}+\beta (\bar{X}-\bar{x})}$

其中， $\beta =\frac{\partial (\bar{y}_{lr})}{\partial (\bar{x})}$ 是目标变量相对于辅助变量的变化率。

定义：总体均值 $\bar{Y}$ 与总体总值 $Y$ 的回归估计定义为：

$\left\{\begin{matrix} \bar{y}_{lr}=\bar{y}+\beta (\bar{X}-\bar{x})\\ \hat{Y}_{lr}=N\bar{y}_{lr} \end{matrix}\right.$

特别， $\beta =1$ 时的估计称为差估计： $\bar{y}_{d}=\bar{y}+(\bar{X}-\bar{x})$ ； $\beta =0$ 时的估计称为简单估计： $\bar{y}_{lr}=\bar{y}$ ； $\beta =\hat{R}=\frac{\bar{y}}{\bar{x}}$ 时的估计称为比率估计： $\bar{y}_{lr}=\bar{y}_{r}$ 。因此，简单估计与比率估计均为回归估计的特例。

（2）回归估计量的性质

$\beta$ 为事先给定的常数 $\beta _{0}$ 时： $\bar{y}_{lr}=\bar{y}+\beta_{0}(\bar{X}-\bar{x})$ ，则 $\bar{y}_{lr}$ 是 $\bar{Y}$ 的无偏估计：

$\beta$ 为事先给定的常数 $\beta _{0}$ 时： $\bar{y}_{lr}$ 可看成是变量 $Y_{i}+\beta _{0}(\bar{X}-X_{i})$ 的样本均值，其总体均值为 $\bar{Y}$ ，由关于样本均值方差的核心公式可得：

$\bar{y}_{lr}$ 的方差估计为：

$\beta _{0}$ 的不同取值会影响 $V(\bar{y}_{lr})$ 的值， $\beta _{0}$ 的最佳值是？可以证明， $\beta _{0}$ 取 $Y$ 对 $X$ 的总体回归系数为：

方差 $V(\bar{y}_{lr})$ 达到最小值：

$\beta$ 为未知（需要由样本数据估计）的情形：一般情形下总体回归系数 $\beta$ 未知，此时一个较好的选择是用样本回归系数 $b$ 替代总体回归系数 $\beta$ ，构造回归估计：

2.回归估计与比率估计、简单估计精度的比较

$\beta$ 需要由样本估计（ $b=\frac{s_{yx}}{s_{x}^2}=\frac{\sum_{i=1}^{n}(y_{i}-\bar{y})(x_{i}-\bar{x})}{\sum_{i=1}^{n}(x_{i}-\bar{x})^2}$ ）的情形：

（1）与简单估计的比较

由于 $0\leqslant \rho \leqslant 1$ ，所以 $n$ 较大时：

故回归估计优于简单估计。

（2）与比率估计的比较（n较大时）

3.总结：回归估计的性质

定义主要变量的总体总值 $Y$ 的回归估计量为 $\hat{Y}_{lr}=N\bar{y}_{lr}$ 。

辅助变量 $X$ 的特点：

辅助变量必须与主要变量高度相关
辅助变量与主要变量之间的相关关系整体上相当稳定
辅助变量的信息质量好
辅助变量的总体均值或总值已知，或容易获得

1.对于简单随机抽样，如 $\beta$ 为常数 $\beta _{0}$ ，则有：

2.使回归估计量的估计精度最高，即 $V(\bar{y}_{lr})$ 最小的 $\beta _{0}$ 为：

3.对于简单随机抽样，若回归系数 $\beta$ 需要通过样本估计，当 $n$ 足够大时， $\bar{y}_{lr}$ 的数学期望与方差分别为：

四、总结

1.各种估计量的比较与选择

2.应该记住的几个基本公式

3.应该了解的几个基本公式

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)