《5分钟说完一个概念》：什么是Bootstrap采用

2023-11-15

想知道中国人的平均身高（群体均值），群体方差为。每次抽样 1000 人，抽样了次。每次抽样的 1000人的平均身高是一次随机抽样，这次抽样得到的平均身高是一个样本，样本容量为而不是 1000。每次抽样得出的“平均身高”都是不一样的，这次不一样的“平均身高”组成了一个均值的样本分布，或称为样本均值的抽样分布；这次不一样的“身高标准差”组成了一个标准差的样本分布，或称为样本标准差的抽样分布。这个分布有自己的均值和标准差 (都是指变量) 。对于抽样分布来说，这个均值的样本分布的标准差就是均值的标准误。这个标准差的样本分布的标准差就是标准差的标准误。

标准差是表示个体间变异大小的指标，对于抽样则是指一次抽样中个体分数间的离散程度，反映了整个样本对样本平均数的离散程度，是 数据精密度 的衡量指标，用于 描述统计；

标准误反映样本平均数对总体平均数的变异程度，对于抽样则是指多次抽样得到多个样本的均值间的离散程度，从而反映抽样误差的大小（样本均值对总体均值的代表性），是度量 结果精密度 的指标，用于 推论统计。

根据中心极限定理：样本均值的抽样分布是所有的样本均值形成的分布，即的概率分布。样本均值的抽样分布在形状上却是对称的。随着样本量n的增大，不论原来的总体是否服从正态分布，样本均值的抽样分布都将趋于正态分布，其分布的数学期望为总体均值，方差为总体方差的。

也就是说，当趋于无穷大时，服从，样本均值服从的正态分布的均值就是群体均值，而样本均值服从的正态分布的方差为群体方差的分之一，也就是或者写成，即印证了第一段的最后一句话：这个均值的样本分布的标准差就是均值的标准误。最后总结下：抽样分布推论出均值，置信区间为。

置信区间是一种常用的区间估计方法，分别以统计量的置信上限和置信下限为上下界构成的区间。对于一组给定的样本数据，其平均值为，标准偏差为，则其整体数据的平均值的置信区间为，样本统计量分布的标准差等于统计量的标准误，即，那么置信区间还可以写做，有时候总体标准差未知，可以用样本标准差代替总体标准差，则置信区间为，其中为非置信水平在正态分布内的覆盖面积，即为对应的标准分数。

随机抽样

上面说的“多次抽样”及其抽样分布其实只是理论上的，利用公式计算标准误并不需要真正获得一个这样的分布。但利用重抽样技术可以真正获得一个抽样分布——当样本的正态分布假设不满足或者样本量太小，直接使用标准误公式来计算会存在较大的偏差和不稳定性，这时我们就会采用 bootstrap 重抽样法来模拟出一个真正意义上的抽样分布。Bootstrap 方法从一个给定的样本中有放回的均匀抽样，也就是说，每当选中一个样本，它等可能地被再次选中并被再次添加到训练集中。具体来说，对于一个样本量为的样本，重复进行多次（一般1000~5000次）有放回随机抽样，每次抽样时，样本量也均为，每次计算出我们关注的统计量（如均值），从而可以真正获得一个关于这个统计量的抽样分布。

基于这个真实的分布，我们就能:

通过抽样分布的标准差（实际上是样本均值或回归系数等统计量的离散程度，而非个体分数的标准差）直接获得标准误。
通过其 2.5% 和 97.5% 的百分位数直接获得 95% 的置信区间。

Bootstrap方法

以 A/A 实验为例，比如我们想计算某指标均值的波动区间，以中心极限定理为原理的方法是先进行大量的 A/A 实验，每个实验计算得到样本均值组成一个新的均值样本，然后计算得到其置信区间；而 bootstrap 方法，则是进行一个 A/A 实验来获取一个大样本，从这个样本中有放回的抽样计算每次抽样的均值，其 2.5% 和 97.5% 的百分位数直接获得 95% 的置信区间。

一些误解：bootstrap 不创建数据。它实际上所做的是估计统计数据、置信区间，并在广泛的场景中进行假设检验，即使现有的统计理论没有涵盖这些场景。还有一些完全无法避免的限制：

输入必须是总体的随机样本。没有解决方法。如果样本不是随机的，则它不具有代表性，因此该方法将失败。
非常小的样本仍然是一个问题。我们不能拉伸事物并从无到有创造数据。Bootstrap 引入了一定数量的方法固有的变化。大部分来自原始样本的选择，只有一小部分来自重新采样过程。因此，样本越大越好。小样本会严重损害自举结果的可靠性。
一些统计量本质上更难。例如，中位数或分位数有问题，除非样本量非常大。

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)

《5分钟说完一个概念》：什么是Bootstrap采用的相关文章

用通俗易懂的方式讲解：如何用大语言模型构建一个知识问答系统

传统搜索系统基于关键字匹配在面向游戏攻略技术图谱知识库等业务场景时缺少对用户问题理解和答案二次处理能力本文探索使用大语言模型 Large Language Model LLM 通过其对自然语言理解和生成的能力揣摩用户意图并对
【EI复现】基于深度强化学习的微能源网能量管理与优化策略研究（Python代码实现）

欢迎来到本博客博主优势博客内容尽量做到思维缜密逻辑清晰为了方便读者座右铭行百里者半于九十本文目录如下目录 1 概述 2 运行结果 2 1 有无策略奖励 2 2 训练结果1
【图像融合】基于联合双边滤波和局部梯度能量的多模态医学图像融合研究（Matlab代码实现）

欢迎来到本博客博主优势博客内容尽量做到思维缜密逻辑清晰为了方便读者座右铭行百里者半于九十本文目录如下目录 1 概述 2 运行结果 3 参考文献 4 Matlab代码图像文章
【卡尔曼滤波】粗略模型和过滤技术在模型不确定情况下的应用研究（Matlab代码实现）

欢迎来到本博客博主优势博客内容尽量做到思维缜密逻辑清晰为了方便读者座右铭行百里者半于九十本文目录如下目录 1 概述 2 运行结果 3 参考文献 4 Matlab代码及文献
【多源数据融合】基于Dempster-Shafer理论的信念对数相似度测量及其在多源数据融合中的应用（Matlab代码实现）

欢迎来到本博客博主优势博客内容尽量做到思维缜密逻辑清晰为了方便读者座右铭行百里者半于九十本文目录如下目录 1 概述 2 运行结果 3 参考文献 4 Matlab代码实现
用CHAT写一份标题为职业教育教师教学能力提升培训总结

CHAT回复标题职业教育教师教学能力提升培训总结一活动概述本次由学校组织的职业教育教师教学能力提升培训于8月15日至8月20日顺利进行来自全校的60位职业教育教师参与了此次培训主讲人为享有盛名的教育专家马丁先生二培训内容与
喜报|华测导航荣获“张江之星”领军型企业称号

近日 2023年度张江之星企业培育名单发布上海华测导航荣获2023年度张江之星领军型企业称号据悉张江之星企业培育是上海科创办为落实关于推进张江高新区改革创新发展建设世界领先科技园区的若干意见张江高新区加快世界领先科技园区
socket网络编程几大模型？看看CHAT是如何回复的？

CHAT回复网络编程中常见的有以下几种模型 1 阻塞I O模型 Blocking I O 传统的同步I O模型一次只处理一个请求 2 非阻塞I O模型 Non blocking I O 应用程序轮询调用socket相关函数检查请求不需
用通俗易懂的方式讲解：使用 LlamaIndex 和 Eleasticsearch 进行大模型 RAG 检索增强生成

检索增强生成 Retrieval Augmented Generation RAG 是一种结合了检索 Retrieval 和生成 Generation 的技术它有效地解决了大语言模型 LLM 的一些问题比如幻觉知识限制等随着 RAG
机器学习算法实战案例：Informer实现多变量负荷预测

文章目录机器学习算法实战案例系列答疑技术交流 1 实验数据集 2 如何运行自己的数据集 3 报错分析机器学习算法实战案例系
人工智能 AI 如何让我们的生活更加便利

每个人都可以从新技术中获益一想到工作或生活更为便利简捷且拥有更多空余时间谁会不为之高兴呢借助人工智能每天能够多一些空余时间或丰富自己的业余生活为培养日常兴趣爱好增添一点便利从电子阅读器到智能家居再到植物识别应用和智能室内花
AI帮助终结全球饥饿问题

全球饥饿问题是牵动人心的头等大事 5月28日是世界饥饿日这一问题更值得关注让人人都能吃饱的想法不仅令人向往而且很快就会变成现实与大多数新事物引进一样对于在控制世界粮食供应这样复杂的任务中AI究竟应该发挥多大的作用人们还踟蹰不前
AI-基于Langchain-Chatchat和chatglm3-6b部署私有本地知识库

目录参考概述部署安装环境准备原理和流程图一键启动启动WebAPI 服务启动WebUI服务 Docker部署
3D点云检测神技 | UFO来了！让PointPillars、PV-RCNN统统涨点！

作者 AI驾驶员编辑智驾实验室点击下方卡片关注自动驾驶之心公众号 ADAS巨卷干货即可获取点击进入自动驾驶之心 3D目标检测技术交流群本文只做学术分享如有侵权联系删文在这篇论文中提出了一个关于在3D点云中检测未
开始弃用NeRF？为什么Gaussian Splatting在自动驾驶场景如此受欢迎？（浙江大学最新）...

点击下方卡片关注自动驾驶之心公众号 ADAS巨卷干货即可获取今天自动驾驶之心为大家分享浙大刚刚出炉的3D Gaussian Splatting综述文章首先回顾了3D Gaussian的原理和应用借着全面比较了3D GS在静态
GPT4+Python近红外光谱数据分析及机器学习与深度学习建模

详情点击链接 GPT4 Python近红外光谱数据分析及机器学习与深度学习建模第一 GPT4 入门基础 1 ChatGPT概述 GPT 1 GPT 2 GPT 3 GPT 3 5 GPT 4模型的演变 2 ChatGPT对话初体验注册与
自动驾驶离不开的仿真！Carla-Autoware联合仿真全栈教程

随着自动驾驶技术的不断发展研发技术人员开始面对一系列复杂挑战特别是在确保系统安全性处理复杂交通场景以及优化算法性能等方面这些挑战中尤其突出的是所谓的长尾问题即那些在实际道路测试中难以遇到的罕见或异常驾驶情况这些问题暴露了实车
实力认证！鼎捷软件荣膺“领军企业”和“创新产品”两大奖项

近日由中国科学院软件研究所中科软科技股份有限公司联合主办的 2023中国软件技术大会于北京成功举办本届大会以大模型驱动下的软件变革为主题数十位来自知名互联网公司和软件巨头企业的技术大咖不同领域行业专家畅销书作者等分享嘉宾
对中国手机作恶的谷歌，印度CEO先后向三星和苹果低头求饶

日前苹果与谷歌宣布合作发布了 Find My Device Network 的草案旨在规范蓝牙追踪器的使用在以往苹果和谷歌的生态形成鲜明的壁垒各走各路如今双方竟然达成合作发生了什么事首先是谷歌安卓系统的市场份额显著下滑数年来
Activiti 6.0.0 完成任务时无法获取表单属性

我是 Activiti 6 0 0 的新手我创建了一个包含用户任务的进程第二个用户任务有两个表单属性但是当我完成第一个用户任务并尝试完成第二个用户任务时表单属性不显示我无法完成用户任务下面是我的 bpm 流程

随机推荐

基于Linux下的TCP编程

基于Linux的TCP网络编程一 Linux下TCP编程框架 TCP网络编程的流程包含服务器和客户端两种模式服务器模式创建一个服务程序等待客户端用户的连接接收到用户的连接请求后根据用户的请求进行处理客户端模式则根据目的服务器的地
低版本IBM MQ API在MQ7.5/8版本上正常运行的程序修改方法

一测试前准备所有数据测试前先替换成对应版本的jar包二 MQ7 5 MQ7 5跟以前版本的区别是更加安全的认证 API的option发生了变化测试环境操作系统服务器 MQ版本 SUSE 11 192 168 32 144 7
LeetCode 1769. 移动所有球到每个盒子所需的最小操作数

有 n 个盒子给你一个长度为 n 的二进制字符串 boxes 其中 boxes i 的值为 0 表示第 i 个盒子是空的而 boxes i 的值为 1 表示盒子里有一个小球在一步操作中你可以将一个小球从某个盒子移动到一个
Java使用Milo实现OPC UA客户端

文章目录一 Milo库二 OPC UA服务端及客户端三 Java连接OPC UA服务端 3 1 依赖 3 2 创建opc ua客户端 3 3 遍历树形节点 3 4 读取节点数据 3 5 写入节点数据 3 5 订阅单个 3 6 批量订
java 多线程学习笔记之线程同步

在前面我们将了很多关于同步的问题然而在现实中需要线程之间的协作比如说最经典的生产者消费者模型当队列满时生产者需要等待队列有空间才能继续往里面放入商品而在等待的期间内生产者必须释放对临界资源即队列的占用权因为生产者如果不
携程连接服务器失败显示0048,携程网回应：携程服务器出故障期间可访问艺龙旅行网...

2015年5月28日携程服务器出故障后官方回应这期间消费者可访问艺龙旅行网 28日很多人的朋友圈被一则携程服务瘫痪的消息刷屏震惊了业界和消费者记者28日登录携程系统发现携程官方网站今日突然陷入瘫痪打开主页后点击时均显示 Se
[VS Code]跟我一起在Visual Studio Code 添加自定义snippet（代码段），附详细配置

Add code snippets for CLANG in VS Code 日志 2021 12 16 VSCode 自 v1 40 起引入新的变量 WORKSPACE FOLDER RANDOM 和 RANDOM HEX 自 v1 4
PostgreSQL 用户和角色管理

PostgreSQL的用户管理用户和角色的区别用户有权限角色没有权限一组角色管理使用组角色的概念管理数据库访问权限 1 创建组角色一个组角色可以看做是一组数据用户组角色可以拥有数据库对象比如表以及可以把这些对象上的权限赋
DDR SDRAM的内部结构Cell Structure(预充电+刷新)

文章目录读过程包含预充电步骤写过程写0 写1 DDR为什么要刷新以上图Cell0为例子读过程包含预充电步骤首先关闭所有字线 W0 W1 Wn 让所有FET均不导通然后将位线B0通过预充电开关Precharge 图中未画出
面试官：HBase 有哪些优化点？

这是个相对开放的问题问题没有那么得细面对这种问题千万不要乱了阵脚其实这种问题答得好是很加分的可以从几个不同的方向来回答这样显得有条理而且可以向面试官展现你的多维度思考和总结的能力两个角度一个从使用者的角度一个从维护者的角度
CopyFile()的使用方法

1 设置工程默认的Unicode字符集为Not Set 编写代码如下函数CopyFile source destination false 表示如果目标文件夹已经有相同的文件则该文件会被替换函数CopyFile source des
什么是weak symbol?

weak symbol 我们用nm看动态库时会发现有些符号类型是 V 手册里解释如下 V The symbol is a weak object When a weak defined symbol is linked with a no
【报告分享】2021年元宇宙发展报告-数据观(附下载)

摘要 2021年被公认为是元宇宙元年这距被称为虚拟现实元年的2016年已过去5年之久业界将元宇宙视为新增长点和下一个具有战略意义的竞争领域将引发全球科技产业的新一轮洗牌学术界和产业界普遍认为元宇宙本身不是一种技术而是整合多
正则表达式中.*的作用

今天看正则表达式的书籍是看到这么个例子要求匹配文章中的xml 匹配使用的正则表达式为 lt xml gt 一开始没有理解是做什么用处的百度了一番后明白了原来中代表任意单个字符包括空格代表前面任意单个字符的重复次数因此 l
mysql 获取当前时间戳

ysql 获取当前时间为select now 运行结果2012 09 05 17 24 15 mysql 获取当前时间戳为select unix timestamp now 运行结果 unix timestamp now 134683698
ERROR 1819 (HY000): Your password does not satisfy the current policy requirements

关于这个问题是在基于MySQL Yum存储库在Linux 7 2上安装MySQL 5 7 21数据库服务实战篇时遇到的问题这是 mysql 初始化时使用临时密码修改自定义密码时由于自定义密码比较简单就出现了不符合密码策略的问
maven工程下读取resource下配置文件

在maven工程中我们会将配置文件放到 src main resources 下面例如我们需要确认resource 下的文件编译之后存放的位置它编译的路径直接位于classes下面这个路径其实就是classPath的路径所以
【C语言基础】学生成绩管理系统（方法：数组）

涉及字符型数组代码 include
两款免费、好用的数据库连接工具

一 Navicate Navicat是一套快速可靠的数据库管理工具专为简化数据库的管理及降低系统管理成本而设它的设计符合数据库管理员开发人员及中小企业的需要 Navicat 是以直觉化的图形用户界面而建的让你可以以安全并且简单的方
《5分钟说完一个概念》：什么是Bootstrap采用

想知道中国人的平均身高群体均值群体方差为每次抽样 1000 人抽样了次每次抽样的 1000人的平均身高是一次随机抽样这

《5分钟说完一个概念》：什么是Bootstrap采用

《5分钟说完一个概念》：什么是Bootstrap采用 的相关文章

随机推荐

热门标签

《5分钟说完一个概念》：什么是Bootstrap采用的相关文章