【读书笔记->统计学】11-02 总体和样本的估计-总体比例、样本比例、根据总体预测样本比例概念简介

2023-10-29

总体比例与样本比例

假设一个情境:曼帝糖果公司再一次进行了抽样,以便利用调查结果预测:总体中有多大比例的人“可能偏爱曼帝公司的糖球”。

结果发现,在40个人中有32个人偏爱他们的口香糖球,其余8个人则偏爱竞争对手的口香糖球。

首席执行官感兴趣的是,是否人人都偏爱曼帝糖果的产品。那么可以将偏爱曼帝糖果的每一个人作为一个“成功”事件。那么我们如何利用样本数据预测总体的“成功”比例?

预测总体比例

如果我们用 X 表示总体的成功事件数量,则 X 符合二项分布,参数为n和p。n为总体中的人数,p 为成功事件的比例。

就像总体均值的最接近估计是样本均值一样,总体成功比例的最接近猜测肯定是样本成功比例。即,如果我们求出样本中偏爱曼帝糖果的人的比例,就能十分近似地估计出总体人群中偏爱曼帝糖果的人的比例。

用偏爱曼帝糖果的总人数除以样本总人数,就能得出样本的成功比例:如果用 p s p_s ps代表样本的成功比例,则可以下式估计总体的成功比例:

在这里插入图片描述

其中,
p s = 成 功 数 目 样 本 数 目 p_s = \frac{成功数目}{样本数目} ps=
也就是说,我们将样本成功比例作为总体成功比例的点估计量,在曼帝糖果的最新抽样中,40 个人中有 32 个人偏爱曼帝糖果产品,因此 P s P_s Ps=0.8。于是,总体成功比例的点估计量也是 0.8。

概率和比例互有关系

其实,概率和比例有很密切的关系。

假设你有一个总体,需要求其成功比例。为此,你可用成功的数目除以总体大小。

现在,假设你想计算从总体中随机选取一个成功事件的概率。为此,你可用总体的成功数目除以总体大小。可以看出,你计算成功概率的方法和计算成功比例的方法完全一样

我们用字母 p 代表总体的成功概率,我们也能方便地用 p 代表比例一二者数值相同。
p = p r o b a b i l i t y ( 概 率 ) = p r o p o r t i o n ( 比 例 ) p = probability(概率) = proportion(比例) p=probability()=proportion()
例题:

在这里插入图片描述


根据总体预测样本比例

假设一个情境:电影院出售混合型盒装糖球。每一盒装有100粒糖球;糖球总体中有25%是红色的。求一大盒特定糖球中有40颗或40颗以上红色糖球的概率,也就是求红色糖球占40%的概率。

这次我们已知总体参数,需要为某一盒特定糖球计算概率,也就是求样本比例的概率。为了求出样本比例的概率分布,下面是具体做法:

  1. 查看与我们的特定样本大小相同的所有样本。

如果我们有一个大小为 n 的样本,就需要考虑所有大小为 n 的可能样本。在本例中,盒子里的糖球数量为 100,因此 n 为 100。

  1. 观察所有样本比例形成的分布,然后求出比例的期望和方差。

每一个样本都有自己的情况,因此每个包装盒里的红色糖球的比例都有可能发生变化。

  1. 得出上述比例的分布后,利用该分布求出概率。

得知一个样本中的“成功比例”的分布后,就能够利用这个分布求出一个随机样本的比例概率一这里的随机样本是一大盒糖球。


具体做法:先看糖球总体。已知总体中的红色糖球的比例,用p表示,即p=0.25。

在这里插入图片描述

每一大盒糖球其实就是从糖盒总体中取出的一个样本。每一大盒装有100颗糖球,因此样本大小为100,让我们用n表示这个大小。

如果用随机变量X代表样本中的红色糖球的数目,则X~B(n,p),其中n=100,p=0.25。样本中的红色糖球的比例取决于X — 样本中的红色糖球的数目,即比例本身是一个随机变量,可以将此记为 P s P_s Ps,且 P s = X / n P_s = X/n Ps=X/n

在这里插入图片描述

可以取出的大小为 n 的可能样本为数众多。每一个可能样本会包含 n 颗糖球,每一盒样本中的红色糖球的数量会符合相同的分布 — 对于每一个样本,红色糖球的数量符合B(n,p),成功比例则为X/n。

在这里插入图片描述

利用所有可能的样本,我们能得出所有样本比例的分布,该分布称作“比例的抽样分布”,或者称作“ P s P_s Ps的分布”。

利用比例的抽样分布,能够求出某一个随机选择的、大小为 n 的样本的“成功比例”的概率。

也就是说,我们能够利用比例的抽样分布求出“某一大盒糖球中的红色糖球比例至少为 40%”的概率。不过,在此之前,我们需要知道上述分布的期望和方差。

P s P_s Ps的期望

出于直觉,我们会期望样本中的红色糖球的比例与总体中的红色糖球的比例保持一致。如果糖球总体中包含25%的红色糖球,那么,可以期望样本中也包含25%的红色糖球。

那么具体计算呢?我们想求 E ( P s ) E(P_s) E(Ps),其中 P s = X / n P_s=X/n Ps=X/n。也就是说,我们想求出所期望的样本比例数值,这里的样本比例等于红色糖球的数量除以样本糖球的总数量,即:
E ( P s ) = E ( X n ) = E ( X ) n E(P_s) = E(\frac{X}{n}) = \frac{E(X)}{n} E(Ps)=E(nX)=nE(X)
上式中的X为样本中红色糖球的数目,如果我们把红色糖球数目视为“成功数目”,则X~B(n,p)。X为二项分布,期望为np。则:
E ( P s ) = E ( X n ) = E ( X ) n = n p n = p E(P_s) = E(\frac{X}{n}) = \frac{E(X)}{n} = \frac{np}{n} = p E(Ps)=E(nX)=nE(X)=nnp=p
这个结果正好符合直觉。我们可以期望样本的成功比例与总体的成功比例相一致。

P s P_s Ps的方差

与求期望的方法相似,
V a r ( P s ) = V a r ( X n ) = V a r ( X ) n 2 Var(P_s) = Var(\frac{X}{n}) = \frac{Var(X)}{n^2} Var(Ps)=Var(nX)=n2Var(X)

提示: V a r ( a x ) = a 2 v a r ( x ) Var(ax) = a^2var(x) Var(ax)=a2var(x)

由于X为二项分布,方差为npq,则:
V a r ( P s ) = V a r ( X n ) = V a r ( X ) n 2 = n p q n 2 = p q n Var(P_s) = Var(\frac{X}{n}) = \frac{Var(X)}{n^2} = \frac{npq}{n^2} = \frac{pq}{n} Var(Ps)=Var(nX)=n2Var(X)=n2npq=npq
取方差的平方根,可得 P s P_s Ps的标准差,它指出样本比例与p的可能差距,有时候我们将它称为“比例标准误差”,因为它能指出样本比例的可能误差。
比 例 标 准 误 差 = p q n 比例标准误差 = \sqrt{\frac{pq}{n}} =npq
n越大,比例标准误差越小。也就是说,样本中包含的对象越多,用样本比例作为p的估计量就越可靠。(我理解为样本中含红色糖球的概率为0.25的可能性越大,越接近0.25,n太小了可能就有意外情况多一些,比如2颗中有1颗红色糖球)

求解 P s P_s Ps的分布

我们求出了 P s P_s Ps的期望和方差,为了求出想要的概率,还需要知道它的分布,而 P s P_s Ps的分布又取决于样本的大小。下面是一张 P s P_s Ps的分布图,其中n很大。

在这里插入图片描述

P s P_s Ps符合正态分布

当n很大时, P s P_s Ps的分布接近正态分布。所谓“很大”是指大于30。n越大, P s P_s Ps的分布越接近正态分布。也就是说,当n很大的时候:
P s ∼ N ( p , p q n ) P_s \sim N(p,\frac{pq}{n}) PsN(p,npq)
之后我们就可以用正态分布的求法求出“某一大盒糖盒中的红色糖球比例至少为40%”的概率了。

P s P_s Ps需要进行连续性修正

每个样本的“成功数目”都是离散的。由于使用“成功数目”计算比例,因此在用正态分布计算概率时,要进行连续性修正。

我们前面讲过,如果用 X 表示样本中的成功数目,则 P s = X / n P_s=X/n Ps=X/n; X 的正态连续性修正为±(1/2)。

如果我们用以上数值替代公式 P s = X / n P_s=X/n Ps=X/n中的X,那么 P s P_s Ps的连续性修正为:
连 续 性 修 正 = ± ( 1 / 2 ) n = ± 1 2 n 连续性修正 = \frac{\pm (1/2)}{n} = \frac{\pm 1}{2n} =n±(1/2)=2n±1
即,如果用正态分布近似计算P的概率,一定要用±1/2n进行连续性修正;连续性修正的确切数值取决于数值。(我的理解:实际上是这样 P s = X ± ( 1 / 2 ) n = X n ± ( 1 / 2 ) n P_s = \frac{X \pm (1/2)}{n} = \frac{X}{n} \pm \frac{(1/2)}{n} Ps=nX±(1/2)=nX±n(1/2),加号或者减号根据实际情况)

小知识:当n很大,连续性修正变得很小,对整个概率带来的变化很小,有时候可以忽略。

让我们看一道例题,看概念感觉迷迷糊糊的。

在这里插入图片描述

我们再看一遍总结:

在这里插入图片描述

本文内容由网友自发贡献,版权归原作者所有,本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容,请联系:hwhale#tublm.com(使用前将#替换为@)

【读书笔记->统计学】11-02 总体和样本的估计-总体比例、样本比例、根据总体预测样本比例概念简介 的相关文章

  • 线性模型出现非正定矩阵的问题解释

    常常在Mplus中求解线性结构方程的时候出现 如下警告 WARNING THE LATENT VARIABLE COVARIANCE MATRIX PSI IS NOT POSITIVE 1 背景 大约不少人找了很多书籍 要么一笔带过 要么
  • 样本方差的快速计算-遍历一遍样本集

    在统计学中 经常需要样本的方差计算 比较麻烦的方式是 1 第一次遍历计算出样本的平均值 2 第二次遍历才能计算出样本的方差 上述方法在样本较少的情况下 非常合适 但如果样本非常大 这种方式就不可取了 而且如果样本是持续增长的 就都不适用了
  • 依分布收敛的定义细节

    1 定义 依分布收敛的定义是这样的 随机变量序列 X n n 1 X n n 1 infty Xn n 1 若它们的累积分布函数cdf序列 F n n 1 F n n 1 infty Fn n 1 与某个随机变量 X X X的cdf F F
  • 学习统计学之方差分析

    方差分析是用来研究诸多控制变量中哪些变量对观测变量的变化有显著性性的影响 对观测变量有显著性影响的各个控制变量的不同水平以及各个水平的交互搭配是如何影响观测变量的 方差分析认为观测变量值的变化是有控制变量的不同水平和随机因素影响的 如果控制
  • 数据的描述性统计

    统计量是样本的一个函数 一 集中趋势的度量 集中趋势 1 一组数据向其中心值靠拢的倾向和程度 2 测量集中趋势就是寻找数据水平的代表值和中心值 3 不同数据类型用不同的集中趋势测量值 4 低层次的测量值适用于高层次的测量数据 高层次的测量值
  • 什么是结构因果模型

    结构因果模型 结构因果模型简介 定义 历史 因果关系之梯 关联 干预 反事实 因果 因果和相关 类型 必要因 充分因 促成因 模型 因果图 模型元素 连接方式 链 叉 对撞 节点类型 中介变量 混杂因子 工具变量 孟德尔随机化 关联 独立性
  • 统计学中常见的分布汇总及相关概念

    常见分布 统计学中有很多常见的分布 在此对这些分布进行梳理 离散型随机变量分布 1 离散型均匀分布 若随机变量有n个不同值 具有相同概率 则我们称之为离散均匀分布 通常发生在我们不确定各种情况发生的机会 且认为每个机会都相等 例如 投掷骰子
  • (大全)预后Cox 列线图Nomogram 校正曲线calibration curve 时间依赖ROC survivalROC C指数C-index 两ROC比较

    Cox模型 等比例风险检验 Nomogram C index 校准曲线 时间 ROC曲线 内置包数据运行 预期结果看图 部分代码加上自己的理解 可以直接复制到R运行 加载包 我用 R 3 6版本的 library cmprsk 已经包含在这
  • 深入浅出统计学(十一)总体和样本的估计

    基本概念 问题 章节理解 上一章主要讲解如何用样本估计总体参数 这一章主要是讲解如何用总体估计样本的概率分布
  • python q-q图 和PP图

    转载于https www cnblogs com king lps p 7840268 html以供学习 侵权即删 一 QQ图 分位数图示法 Quantile Quantile Plot 简称 Q Q 图 统计学里Q Q图 Q代表分位数 是
  • 混合模型简介与高斯混合模型

    高斯混合模型 混合模型概述 In statistics a mixture model is a probabilistic model for representing the presence of subpopulations wit
  • 数据分析之非参数检验与二元逻辑回归结果不一致的原因

    在对两组数据进行非参数检验时 各项属性间无统计学差异 但以分类变量作为因变量使用二元逻辑回归进行分析时 其中存在属性p值小于0 05 即该变量对因变量的影响具有显著性 导致该情况的原因 可能是由于两个检验方法所用的假设和检验策略不同所致 非
  • 统计学第九周:参数估计python实现

    统计学第九周 参数估计复习 参数估计 根据从总体中随机取样获得样本 根据取样样本来估计总体分布中参数的过程 方法 估计形式上分 点估计与区间估计 估计的方法有矩法估计 最小二乘法估计 似然估计 贝叶斯估计等等 问题一般有 未知参数的估计量
  • 卡方分布

    以上讲了一种称为服从正态分布的概率密度函数 今天 讲一讲服从 卡方分布 的概率密度函数 首先给出该函数的定义 自由度 是公式中一个重要参数 自由度不同 图形的形状也完全不同 众所周知 直线方程中的参数k是斜率 它控制着直线的倾斜角度 它不同
  • 时间序列完全教程(R)

    简介 在商业应用中 时间是最重要的因素 能够提升成功率 然而绝大多数公司很难跟上时间的脚步 但是随着技术的发展 出现了很多有效的方法 能够让我们预测未来 不要担心 本文并不会讨论时间机器 讨论的都是很实用的东西 本文将要讨论关于预测的方法
  • 假设检验(一):假设检验总体概念

    写在前面的话 最近在学习统计学 这里仅仅是一些学习笔记 方便我自己回顾以及供大家参考 对于统计学我只是初学者 有什么错误之处欢迎大家指出 共同学习 共同进步 一 总体概念 假设检验是一种统计推断方法 其主要用来判断样本与样本 样本与总体之间
  • R语言系统教程(八):绘图命令

    R语言系统教程 八 绘图命令 8 1 高水平绘图函数 8 1 1 plot 函数 8 1 2 显示多变量数据 8 1 3 显示图形 8 2 高水平绘图中的命令 8 2 1 图中的逻辑命令 8 2 2 数据取对数 8 2 3 type 8 2
  • 高斯混合模型的终极理解

    高斯混合模型GMM是一个非常基础并且应用很广的模型 对于它的透彻理解非常重要 网上的关于GMM的大多资料介绍都是大段公式 而且符号表述不太清楚 或者文笔非常生硬 本文尝试用通俗的语言全面介绍一下GMM 不足之处还望各位指正 首先给出GMM的
  • 统计学:方差分析和相关分析的区别和联系

    区别 方差分析目的是检验因素是否对总体起作用 方法是不同的分组施加不同的因素水平 然后看组间差距是否明显大于组内差距 若明显大于则认为因素对总体起作用 具体过程中 方差分析只读取因变量数据 而不读取自变量数值 相关分析是检验变量之间是否有依
  • 为什么样本方差里面要除以(n-1)而不是n?

    前段日子重新整理了一下这个问题的解答 跟大家分享一下 如果有什么错误的话希望大家能够提出来 我会及时改正的 话不多说进入正题 首先 我们来看一下样本方差的计算公式 刚开始接触这个公式的话可能会有一个疑问就是 为什么样本方差要除以 n 1 而

随机推荐

  • Java IDE 之间的异同 (IDEA, Eclipse)

    Java常用的IDE有很多种 比较经典的Eclipse MyEclipse 近年来比较流行的IDEA 而将eclipse创建的项目用IDEA打开多少会出现点问题 这需要我们比较两个IDE之间的不同 IDE是什么 IDE一般指集成开发环境 一
  • 零基础学习大数据经验分享

    大数据人才极度匮乏 无论是互联网巨头企业 还是中小型企业 创业公司都非常缺乏大数据专业人才 在数据驱动的未来 大数据人才市场势必会越来越大 而现在仅仅是大数据起步的进阶阶段 可以想象未来的人才缺口有多大 所以现在入行正是恰逢其时 市场需求的
  • aggrid tooltipValueGetter

    若你想悬浮到单元格上时显示你处理过的值 那么需要用到tooltipValueGetter 应用场景 单元格字段实际的值可能是后端存数据库用的value 而用户要看的是value的中文转义 如 1 代表 是 单元格的值实际上为1 toolti
  • Java学习笔记:日期相关的类Date,DateFormat和Calendar

    在计算机中 把1970年1月1日00 00 00定为基准时间 每个度量单位是毫秒 使用long类型的变量来表示时间 从基准时间往前几亿年 往后几亿年的时间都足够表示 Java获得当前系统时刻方式为 System currentTimeMil
  • 计算机用海伦公式计算三角形面积,浮点运算指令一例(用海伦公式计算三角形的面积)...

    浮点运算指令一例 用海伦公式计算三角形的面积 2006 3 10 14 46 8415 浮点运算指令一例 用海伦公式计算三角形的面积 2006 3 10 14 46 8415 下面是关于浮点运算指令方面的一例 程序对三角形的面积和周长进行了
  • 去极限平均值+加权+递归平均滤波算法

    原文链接 http www itdoy com index php post 22 html 头文件 itdoy FilterData h C ifndef ITDOY FILTERDATA H define ITDOY FILTERDAT
  • python如何重复运行_python重复执行,python怎么让程序重复运行

    反复执行Python Python如何使程序重复运行 Python的周期基本1主题 u201Clinux系统 u201D u201CMysql数据库 u201D u201CPython语言 u201D 定义一个元组 三个元素代表三个课程2
  • element上传头像

  • 最新Web前端经典面试试题及答案-史上最全前端面试题(含答案)

    近期总结一一些面试题 都是企业的面试题笔记题 感觉薪资10k下的都会出笔试题 特别高的薪资都是直接技术面试或者是 现场编程 总结很多人的面试题 后期会对于单个知识点再说笔记详细讲解 看前端面试题库 前端面试题 1 一个200 200的div
  • Ruoyi-Vue-Plus:数据加解密

    Ruoyi Vue Plus 数据加解密 Ruoyi Vue Plus版本 4 7 0 项目地址 https gitee com dromara RuoYi Vue Plus 步骤 定义注解 EncryptField 用于标记需要加密的属性
  • SourceTree 安装

    一 下载 官网下载地址 https product downloads atlassian com software sourcetree windows ga SourceTreeSetup 3 3 9 exe 二 安装 1 下载安装gi
  • 一张表快速了解c++test工具Parasoft 和 IBM Logiscope谁更强

    你知道测试金字塔吗 为了用开发实践来扩大测试规模 如何以正确的数量设计合适类型的自动化测试 测试金字塔是一个很好的指南 测试金字塔是一个很好的视觉隐喻 它描述了不同的测试层 以及每一层要做多少测试 Parasoft测试金字塔 虽然测试自动化
  • 解决Intellij IDEA控制台,logger.info(),system.out.println()等中文乱码问题

    文章目录 总说 乱码主要分为如下2种大类 1 编写环境乱码 2 控制台打印乱码 又包含3种 一 解决编写环境乱码 二 解决控制台打印乱码 3种 1 IDEA Tomcate启动时控制台打印乱码 2 log4j的logger info 控制台
  • React Native 入门(三)——js与native互相通信

    使用AndroidStudio打开项目中的android目录 并等待Gradle Build完成 首次Build会花费不少时间 耐心等待 编译成功后如图 首先我们来介绍js调用native方法 1 新建文件夹mymoudles和myreac
  • java基础学习 day21(数组的内存原理)

    1 java内存分配 栈 方法运行时使用的内存 比如main 方法运行 进入栈中运行 方法开始执行时会进栈 代码执行完毕会出栈 堆 存储对象或者数组 用new关键字来创建的 都存储在堆中 new出来的东西会在这块内存中开辟空间并产生地址 方
  • mysql半同步复制安装配置

    一 半同步复制介绍 1 半同步复制产生的起源 默认情况下 MySQL复制是异步的 主服务器将事件写入其二进制日志 但不知道从服务器是否或何时检索并处理它们 对于异步复制 如果主服务器崩溃 它提交的事务可能不会传输到任何从服务器 因此 在这种
  • swing jtextArea滚动条和文字缩放

    当加了滚动条的jtextArea添加滚动事件比如缩放ctrl wheel时 添加的滚动事件和滚动缩放事件会重合 如何让这两个事件同时发生而不会相互干扰呢 也就是滚动条放大缩小时文本不会发生上下滚动 import javax swing im
  • 刷脸支付飞速发展带动了支付技术的变革

    移动支付的飞速发展带动了支付技术的变革 NFC支付 二维码支付 指纹支付等支付方式正活跃在我们的日常生活中 而人脸识别技术的成熟和人们对支付便捷安全性需求的提升 使得刷脸支付逐渐进入大众视野 随着移动支付的飞速发展 聚合支付也迅速渗透到各种
  • Hibernate注解开发关于Id的若干问题

    Hibernate的基本注解注解式开发 Hibernate基本注解 其实在id的注解上 还是有很多有意思的东西 这些东西我们要从Hibernate内置的主键生成策略讲起 Hibernate内置的主键生成策略 一 assigned 主键由外部
  • 【读书笔记->统计学】11-02 总体和样本的估计-总体比例、样本比例、根据总体预测样本比例概念简介

    总体比例与样本比例 假设一个情境 曼帝糖果公司再一次进行了抽样 以便利用调查结果预测 总体中有多大比例的人 可能偏爱曼帝公司的糖球 结果发现 在40个人中有32个人偏爱他们的口香糖球 其余8个人则偏爱竞争对手的口香糖球 首席执行官感兴趣的是