想知道中国人的平均身高
(群体均值),群体方差为
。每次抽样 1000 人,抽样了
次。每次抽样的 1000人 的平均身高是一次随机抽样,这
次抽样得到的平均身高是一个样本,样本容量为
而不是 1000。每次抽样得出的“平均身高”都是不一样的,这
次不一样的“平均身高”组成了一个均值的样本分布,或称为样本均值的抽样分布;这
次不一样的“身高标准差”组成了一个标准差的样本分布,或称为样本标准差的抽样分布。这个分布有自己的均值
和标准差
(都是指变量) 。对于抽样分布来说,这个均值
的样本分布的标准差就是均值的标准误。这个标准差
的样本分布的标准差就是标准差的标准误。
标准差是表示个体间变异大小的指标,对于抽样则是指一次抽样中个体分数间的离散程度,反映了整个样本对样本平均数的离散程度,是 数据精密度 的衡量指标,用于 描述统计;
标准误反映样本平均数对总体平均数的变异程度,对于抽样则是指多次抽样得到多个样本的均值间的离散程度,从而反映抽样误差的大小(样本均值对总体均值的代表性),是度量 结果精密度 的指标,用于 推论统计。
根据中心极限定理:样本均值的抽样分布是所有的样本均值形成的分布,即
的概率分布。样本均值的抽样分布在形状上却是对称的。随着样本量n的增大,不论原来的总体是否服从正态分布,样本均值的抽样分布都将趋于正态分布,其分布的数学期望为总体均值
,方差为总体方差的
。
也就是说,当
趋于无穷大时,
服从
,样本均值
服从的正态分布的均值就是群体均值
,而样本均值
服从的正态分布的方差
为群体方差
的
分之一,也就是
或者写成
,即印证了第一段的最后一句话:这个均值
的样本分布的标准差
就是均值的标准误
。最后总结下:抽样分布推论出均值
,置信区间为
。
置信区间是一种常用的区间估计方法,分别以统计量的置信上限和置信下限为上下界构成的区间。对于一组给定的样本数据,其平均值为
,标准偏差为
,则其整体数据的平均值的
置信区间为
,样本统计量分布的标准差等于统计量的标准误,即
,那么置信区间还可以写做 ,有时候总体标准差未知,可以用样本标准差代替总体标准差,则置信区间为,其中
为非置信水平在正态分布内的覆盖面积 ,
即为对应的标准分数。
随机抽样
上面说的“多次抽样”及其抽样分布其实只是理论上的,利用公式计算标准误并不需要真正获得一个这样的分布。但利用重抽样技术可以真正获得一个抽样分布——当样本的正态分布假设不满足或者样本量太小,直接使用标准误公式来计算会存在较大的偏差和不稳定性,这时我们就会采用 bootstrap 重抽样法来模拟出一个真正意义上的抽样分布。Bootstrap 方法从一个给定的样本中有放回的均匀抽样,也就是说,每当选中一个样本,它等可能地被再次选中并被再次添加到训练集中。具体来说,对于一个样本量为
的样本,重复进行多次(一般1000~5000次)有放回随机抽样,每次抽样时,样本量也均为
,每次计算出我们关注的统计量(如均值),从而可以真正获得一个关于这个统计量的抽样分布。
基于这个真实的分布,我们就能:
通过抽样分布的标准差(实际上是样本均值或回归系数等统计量的离散程度,而非个体分数的标准差)直接获得标准误。
通过其 2.5% 和 97.5% 的百分位数直接获得 95% 的置信区间。
Bootstrap方法
以 A/A 实验为例,比如我们想计算某指标均值的波动区间,以中心极限定理为原理的方法是先进行大量的 A/A 实验,每个实验计算得到样本均值组成一个新的均值样本,然后计算得到其置信区间;而 bootstrap 方法,则是进行一个 A/A 实验来获取一个大样本,从这个样本中有放回的抽样计算每次抽样的均值,其 2.5% 和 97.5% 的百分位数直接获得 95% 的置信区间。
一些误解:bootstrap 不创建数据。它实际上所做的是估计统计数据、置信区间,并在广泛的场景中进行假设检验,即使现有的统计理论没有涵盖这些场景。还有一些完全无法避免的限制:
输入必须是总体的随机样本。没有解决方法。如果样本不是随机的,则它不具有代表性,因此该方法将失败。
非常小的样本仍然是一个问题。我们不能拉伸事物并从无到有创造数据。Bootstrap 引入了一定数量的方法固有的变化。大部分来自原始样本的选择,只有一小部分来自重新采样过程。因此,样本越大越好。小样本会严重损害自举结果的可靠性。
一些统计量本质上更难。例如,中位数或分位数有问题,除非样本量非常大。