数据分析之数理基础与概率统计

2023-05-16

文章目录

        • 随机误差的分布是`正态分布(高斯分布)`
        • 中心极限定理和大数定律
        • 两类错误
        • 置信区间、置信度(置信水平)
        • 协方差是啥,怎么判断协方差正负
        • 辛普森悖论的例子
        • ABtest
          • 1.在abtest的应用中 p值的意义,第一类和第二类错误的定义是什么?
          • 2.abtest的流程
        • 幸存者偏差

随机误差的分布是正态分布(高斯分布)

根据中心极限定理,大量独立的随机变量之和趋向于某个稳定的分布,被称为正态分布(高斯分布)。那么大量的随机(随机就说明是独立的)误差之和就趋向于正态分布。

中心极限定理和大数定律

中心极限定理是说无论抽样分布(卡方、t、F)如何,均值服从正态分布。(正态分布是抽样分布的基础。三大抽样分布是从正态分布抽出的样本的分布。指的不是一个总体内所有变量的概率分布。而是针对一个总体N,用固定的样本容量进行多次抽样,得到的一个有关样本方差、均值的组合。)
而大数定律根本和正态分布无关,只是说样本大了抽样分布近似总体分布。比如说投硬币,投10000次,出现正反面的概率都近似于50%。而若投的次数少,则不会。

两类错误

第一类错误α叫弃真错误或显著性水平,即原假设为真时却被我们拒绝的概率;第二类错误β叫采伪错误,即原假设为伪我们没有拒绝的概率。在一定样本量的情况下,减小一类错误必然会增大另一类错误,在实践中我们一般会优先控制第一类错误,因为原假设是非常明确的。
一般第一类错误不超过5%,即在原假设为真的情况下接受原假设的概率要超过95%。
在这里插入图片描述

置信区间、置信度(置信水平)

在中心极限定理中,我们知道从总体中进行N次样本(一个样本中包含多个数据)抽取,N次样本的均值会围绕总体均值上下波动。因此,置信区间就是为总体的均值提供了一个可波动的范围,置信区间与置信度是相对应的。例如,在95%的置信度下,置信区间为【a,b】,可以近似的理解成抽取10000次样本,其中有9500次样本的均值能够落在【a,b】范围内。
详细内容见:理解置信区间、置信度
求解置信区间:
在这里插入图片描述

协方差是啥,怎么判断协方差正负

协方差在概率统计中用于衡量二个变量的总体误差,通俗解释就是用于衡量二个变量变化趋势的一致程度。当这二个变量变化趋势相同时,为正相关关系,协方差为正。当这二个变量变化趋势相反时,为负相关关系,协方差为负。协方差为0代表两个变量不相干。

从而导致协方差的大小不能真实反映二个变量的相关程度,因此引出相关系数来。

辛普森悖论的例子

在这里插入图片描述

ABtest

1.在abtest的应用中 p值的意义,第一类和第二类错误的定义是什么?

p值是假设检验中用于判断显著性的指标。第一类错误α叫弃真错误或显著性水平,即原假设为真时却被我们拒绝的概率;第二类错误β叫采伪错误,即原假设为伪我们没有拒绝的概率。

2.abtest的流程

选取指标->建立假设->计算样本量->假设检验

幸存者偏差

所统计的数据全都来源于幸存的人,因为失败出局者根本没机会给出回答。当样本中有数据缺失时可能出现幸存者偏差。在幸存者偏差这个问题中,我们观察到的样本是被筛选过的有偏样本。例如记者春运的时候在火车上问大家买票难不难,最终得到结论:春运买票很简单(忽略了没有买到票的人)。

解释:幸存者偏差,就是忽略了筛选条件,把经过筛选的结果当成随机结果。

本文内容由网友自发贡献,版权归原作者所有,本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容,请联系:hwhale#tublm.com(使用前将#替换为@)

数据分析之数理基础与概率统计 的相关文章

随机推荐