《5分钟说完一个概念》:什么是Bootstrap采用

2023-11-15

想知道中国人的平均身高 (群体均值),群体方差为 。每次抽样 1000 人,抽样了 次。每次抽样的 1000人 的平均身高是一次随机抽样,这 次抽样得到的平均身高是一个样本,样本容量为 而不是 1000。每次抽样得出的“平均身高”都是不一样的,这 次不一样的“平均身高”组成了一个均值的样本分布,或称为样本均值的抽样分布;这 次不一样的“身高标准差”组成了一个标准差的样本分布,或称为样本标准差的抽样分布。这个分布有自己的均值 和标准差 (都是指变量) 。对于抽样分布来说,这个均值 的样本分布的标准差就是均值的标准误。这个标准差 的样本分布的标准差就是标准差的标准误

  1. 标准差是表示个体间变异大小的指标,对于抽样则是指一次抽样中个体分数间的离散程度,反映了整个样本对样本平均数的离散程度,是 数据精密度 的衡量指标,用于 描述统计

  2. 标准误反映样本平均数对总体平均数的变异程度,对于抽样则是指多次抽样得到多个样本的均值间的离散程度,从而反映抽样误差的大小(样本均值对总体均值的代表性),是度量 结果精密度 的指标,用于 推论统计

根据中心极限定理:样本均值的抽样分布是所有的样本均值形成的分布,即 的概率分布。样本均值的抽样分布在形状上却是对称的。随着样本量n的增大,不论原来的总体是否服从正态分布,样本均值的抽样分布都将趋于正态分布,其分布的数学期望为总体均值 ,方差为总体方差的

也就是说,当 趋于无穷大时, 服从 ,样本均值 服从的正态分布的均值就是群体均值 ,而样本均值 服从的正态分布的方差 为群体方差 分之一,也就是 或者写成 ,即印证了第一段的最后一句话:这个均值 的样本分布的标准差 就是均值的标准误 。最后总结下:抽样分布推论出均值 ,置信区间为

置信区间是一种常用的区间估计方法,分别以统计量的置信上限和置信下限为上下界构成的区间。对于一组给定的样本数据,其平均值为 ,标准偏差为 ,则其整体数据的平均值的 置信区间为 ,样本统计量分布的标准差等于统计量的标准误,即 ,那么置信区间还可以写做 ,有时候总体标准差未知,可以用样本标准差代替总体标准差,则置信区间为,其中 为非置信水平在正态分布内的覆盖面积 , 即为对应的标准分数。

随机抽样

上面说的“多次抽样”及其抽样分布其实只是理论上的,利用公式计算标准误并不需要真正获得一个这样的分布。但利用重抽样技术可以真正获得一个抽样分布——当样本的正态分布假设不满足或者样本量太小,直接使用标准误公式来计算会存在较大的偏差和不稳定性,这时我们就会采用 bootstrap 重抽样法来模拟出一个真正意义上的抽样分布。Bootstrap 方法从一个给定的样本中有放回的均匀抽样,也就是说,每当选中一个样本,它等可能地被再次选中并被再次添加到训练集中。具体来说,对于一个样本量为 的样本,重复进行多次(一般1000~5000次)有放回随机抽样,每次抽样时,样本量也均为 ,每次计算出我们关注的统计量(如均值),从而可以真正获得一个关于这个统计量的抽样分布。

基于这个真实的分布,我们就能:

  1. 通过抽样分布的标准差(实际上是样本均值或回归系数等统计量的离散程度,而非个体分数的标准差)直接获得标准误。

  2. 通过其 2.5% 和 97.5% 的百分位数直接获得 95% 的置信区间。

Bootstrap方法

以 A/A 实验为例,比如我们想计算某指标均值的波动区间,以中心极限定理为原理的方法是先进行大量的 A/A 实验,每个实验计算得到样本均值组成一个新的均值样本,然后计算得到其置信区间;而 bootstrap 方法,则是进行一个 A/A 实验来获取一个大样本,从这个样本中有放回的抽样计算每次抽样的均值,其 2.5% 和 97.5% 的百分位数直接获得 95% 的置信区间。

一些误解:bootstrap 不创建数据。它实际上所做的是估计统计数据、置信区间,并在广泛的场景中进行假设检验,即使现有的统计理论没有涵盖这些场景。还有一些完全无法避免的限制:

  • 输入必须是总体的随机样本。没有解决方法。如果样本不是随机的,则它不具有代表性,因此该方法将失败。

  • 非常小的样本仍然是一个问题。我们不能拉伸事物并从无到有创造数据。Bootstrap 引入了一定数量的方法固有的变化。大部分来自原始样本的选择,只有一小部分来自重新采样过程。因此,样本越大越好。小样本会严重损害自举结果的可靠性。

  • 一些统计量本质上更难。例如,中位数或分位数有问题,除非样本量非常大。

本文内容由网友自发贡献,版权归原作者所有,本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容,请联系:hwhale#tublm.com(使用前将#替换为@)

《5分钟说完一个概念》:什么是Bootstrap采用 的相关文章

随机推荐

  • 基于Linux下的TCP编程

    基于Linux的TCP网络编程 一 Linux下TCP编程框架 TCP网络编程的流程包含服务器和客户端两种模式 服务器模式创建一个服务程序 等待客户端用户的连接 接收到用户的连接请求后 根据用户的请求进行处理 客户端模式则根据目的服务器的地
  • 低版本IBM MQ API在MQ7.5/8版本上正常运行的程序修改方法

    一 测试前准备 所有数据测试前 先替换成对应版本的jar包 二 MQ7 5 MQ7 5跟以前版本的区别是 更加安全的认证 API的option发生了变化 测试环境 操作系统 服务器 MQ版本 SUSE 11 192 168 32 144 7
  • LeetCode 1769. 移动所有球到每个盒子所需的最小操作数

    有 n 个盒子 给你一个长度为 n 的二进制字符串 boxes 其中 boxes i 的值为 0 表示第 i 个盒子是 空 的 而 boxes i 的值为 1 表示盒子里有 一个 小球 在一步操作中 你可以将 一个 小球从某个盒子移动到一个
  • Java使用Milo实现OPC UA客户端

    文章目录 一 Milo库 二 OPC UA服务端及客户端 三 Java连接OPC UA服务端 3 1 依赖 3 2 创建opc ua客户端 3 3 遍历树形节点 3 4 读取节点数据 3 5 写入节点数据 3 5 订阅 单个 3 6 批量订
  • java 多线程学习笔记之 线程同步

    在前面我们将了很多关于同步的问题 然而在现实中 需要线程之间的协作 比如说最经典的生产者 消费者模型 当队列满时 生产者需要等待队列有空间才能继续往里面放入商品 而在等待的期间内 生产者必须释放对临界资源 即队列 的占用权 因为生产者如果不
  • 携程连接服务器失败显示0048,携程网回应:携程服务器出故障期间可访问艺龙旅行网...

    2015年5月28日 携程服务器出故障后 官方回应 这期间消费者可访问艺龙旅行网 28日 很多人的朋友圈被一则携程服务瘫痪的消息刷屏 震惊了业界和消费者 记者28日登录携程系统发现 携程官方网站今日突然陷入瘫痪 打开主页后点击时均显示 Se
  • [VS Code]跟我一起在Visual Studio Code 添加自定义snippet(代码段),附详细配置

    Add code snippets for CLANG in VS Code 日志 2021 12 16 VSCode 自 v1 40 起 引入新的变量 WORKSPACE FOLDER RANDOM 和 RANDOM HEX 自 v1 4
  • PostgreSQL 用户和角色管理

    PostgreSQL的用户管理 用户和角色的区别 用户有权限 角色没有权限 一 组角色管理 使用组角色的概念管理数据库访问权限 1 创建组角色 一个组角色可以看做是一组数据用户 组角色可以拥有数据库对象 比如表 以及可以把这些对象上的权限赋
  • DDR SDRAM的内部结构Cell Structure(预充电+刷新)

    文章目录 读过程 包含预充电步骤 写过程 写0 写1 DDR为什么要刷新 以上图Cell0为例子 读过程 包含预充电步骤 首先关闭所有字线 W0 W1 Wn 让所有FET均不导通 然后将位线B0通过预充电开关Precharge 图中未画出
  • 面试官:HBase 有哪些优化点?

    这是个相对开放的问题 问题没有那么得细 面对这种问题千万不要乱了阵脚 其实这种问题答得好是很加分的 可以从几个不同的方向来回答 这样显得有条理 而且可以向面试官展现你的多维度思考和总结的能力 两个角度 一个从使用者的角度 一个从维护者的角度
  • CopyFile()的使用方法

    1 设置工程默认的Unicode字符集为Not Set 编写代码如下 函数CopyFile source destination false 表示 如果目标文件夹已经有相同的文件 则该文件会被替换 函数CopyFile source des
  • 什么是weak symbol?

    weak symbol 我们用nm看动态库时 会发现有些符号类型是 V 手册里解释如下 V The symbol is a weak object When a weak defined symbol is linked with a no
  • 【报告分享】2021年元宇宙发展报告-数据观(附下载)

    摘要 2021年被公认为是 元宇宙元年 这距被称为 虚拟现实元年 的2016年已过去5年之久 业界将元宇宙视为新增长点和下一个具有战略意义的竞争领域 将引发全球科技产业的新一轮洗牌 学术界和产业界普遍认为 元宇宙本身不是一种技术 而是整合多
  • 正则表达式中.*的作用

    今天看正则表达式的书籍是看到这么个例子 要求匹配 文章中的xml 匹配使用的正则表达式为 lt xml gt 一开始没有理解 是做什么用处的 百度了一番后明白了 原来 中 代表任意单个字符 包括空格 代表前面任意单个字符的重复次数 因此 l
  • mysql 获取当前时间戳

    ysql 获取当前时间为select now 运行结果2012 09 05 17 24 15 mysql 获取当前时间戳为select unix timestamp now 运行结果 unix timestamp now 134683698
  • ERROR 1819 (HY000): Your password does not satisfy the current policy requirements

    关于这个问题是在 基于MySQL Yum存储库在Linux 7 2上安装MySQL 5 7 21数据库服务 实战篇 时遇到的问题 这是 mysql 初始化时 使用临时密码 修改自定义密码时 由于自定义密码比较简单 就出现了不符合密码策略的问
  • maven工程下 读取resource下配置文件

    在maven工程中 我们会将配置文件放到 src main resources 下面 例如 我们需要确认resource 下的文件 编译之后存放的位置 它编译的路径直接位于classes下面 这个路径其实就是classPath的路径 所以
  • 【C语言基础】学生成绩管理系统(方法:数组)

    涉及 字符型数组 代码 include
  • 两款免费、好用的数据库连接工具

    一 Navicate Navicat是一套快速 可靠的数据库管理工具 专为简化数据库的管理及降低系统管理成本而设 它的设计符合数据库管理员 开发人员及中小企业的需要 Navicat 是以直觉化的图形用户界面而建的 让你可以以安全并且简单的方
  • 《5分钟说完一个概念》:什么是Bootstrap采用

    想知道中国人的平均身高 群体均值 群体方差为 每次抽样 1000 人 抽样了 次 每次抽样的 1000人 的平均身高是一次随机抽样 这