一、概念
- Bootstrap 一词出自英文习语
“pull yourself up by your bootstraps”
。它的隐含意是“improve your situation by your own efforts”,即“通过你自己的努力(而非他人帮助)来解决困难改善处境”。因此,Bootstrap 一词就代表了“自力更生”;
- 与参数估计比较,Bootstrap 意味着我们仅仅通过使用手头上的样本数据而不对总体的分布做任何假设(比如传统方法中的正态分布假设),来计算样本统计量在估计总体统计量时的误差;
-
Bootstrap 原则指出
:“Bootstrap 样本统计量
x
‾
∗
\overline{x}^*
x∗ 围绕原始样本统计量
x
‾
\overline{x}
x 的变化(简称为
x
‾
∗
\overline{x}^*
x∗ 的变化)”是“原始样本统计量
x
‾
\overline{x}
x 围绕总体统计量
μ
\mu
μ 的变化(简称为
x
‾
\overline{x}
x 的变化)”的一个很好的近似。
二、工作原理
Bootstrap对原始数据集进行重抽样,创建模拟数据数据集,其抽样方法具有如下特点:
- 每次抽样对于每个样本具有相同的概率,具有随机抽取每个原始数据点以将其包含在重抽样数据集中的可能性;
- 属于"有放回"的抽样方式,某样本可以多次出现在重抽样的数据集中;
- 该过程将创建与原始数据集大小相同的重抽样数据集。
三、与传统方法的比较
- 计算置信区间的方法为传统的Normal Theory方法,其背后存有强大假设:中心极限定理和正态分布。如果未知分布不规则未知或样本数不足(本例样本量只有7),则中心极限定理指出的均值近似为正态分布便难以成立,而基于t分布计算出来的均值置信区间也不够准确;
- 分布未知及样本量不足时,传统的Normal Theory方法局限性很大,使得我们在求解置信区间的很多问题面前举步维艰,Bootstrap方法在计算统计量的置信区间时大有可为;
- 基于大数据思维,Bootstrap方法得出的真值的置信区间相对更窄( 依然未超限度),从统计意义上进一步降低了假阳性;
- 对于小数据集,bootstrap效果通常很好;
- 若样本的潜在分布未知,或存在离群点,或样本量过小,以及没有其它合适的参数方法时,bootstrap将是获取置信区间以及进行假设检验的一种有效方法。
题外:
什么是中心极限定理(Central Limit Theorem)
中心极限定理指的是给定一个任意分布的总体。我每次从这些总体中随机抽取 n 个抽样,一共抽 m 次。 然后把这 m 组抽样分别求出平均值。 这些平均值的分布接近正态分布。
现在我们要统计全国的人的体重,看看我国平均体重是多少。当然,我们把全国所有人的体重都调查一遍是不现实的。所以我们打算一共调查1000组,每组50个人。 然后,我们求出第一组的体重平均值、第二组的体重平均值,一直到最后一组的体重平均值。中心极限定理说:这些平均值是呈现正态分布的。并且,随着组数的增加,效果会越好。 最后,当我们再把1000组算出来的平均值加起来取个平均值,这个平均值会接近全国平均体重。
- 其中要注意的几点:
- 总体本身的分布不要求正态分布
上面的例子中,人的体重是正态分布的。但如果我们的例子是掷一个骰子(平均分布),最后每组的平均值也会组成一个正态分布。(神奇!)
- 样本每组要足够大,但也不需要太大
取样本的时候,一般认为,每组大于等于30个
,即可让中心极限定理发挥作用。