数据分析之数理基础与概率统计

2023-05-16

文章目录

- - - 随机误差的分布是`正态分布（高斯分布）`
    - 中心极限定理和大数定律
    - 两类错误
    - 置信区间、置信度（置信水平）
    - 协方差是啥，怎么判断协方差正负
    - 辛普森悖论的例子
    - ABtest
    - - 1.在abtest的应用中 p值的意义，第一类和第二类错误的定义是什么？
      - 2.abtest的流程
    - 幸存者偏差

随机误差的分布是`正态分布（高斯分布）`

根据中心极限定理，大量独立的随机变量之和趋向于某个稳定的分布，被称为正态分布（高斯分布）。那么大量的随机（随机就说明是独立的）误差之和就趋向于正态分布。

中心极限定理和大数定律

中心极限定理是说无论抽样分布(卡方、t、F)如何，均值服从正态分布。（正态分布是抽样分布的基础。三大抽样分布是从正态分布抽出的样本的分布。指的不是一个总体内所有变量的概率分布。而是针对一个总体N，用固定的样本容量进行多次抽样，得到的一个有关样本方差、均值的组合。）
而大数定律根本和正态分布无关，只是说样本大了抽样分布近似总体分布。比如说投硬币，投10000次，出现正反面的概率都近似于50%。而若投的次数少，则不会。

两类错误

第一类错误α叫弃真错误或显著性水平，即原假设为真时却被我们拒绝的概率；第二类错误β叫采伪错误，即原假设为伪我们没有拒绝的概率。在一定样本量的情况下，减小一类错误必然会增大另一类错误，在实践中我们一般会优先控制第一类错误，因为原假设是非常明确的。
一般第一类错误不超过5%，即在原假设为真的情况下接受原假设的概率要超过95%。
在这里插入图片描述

置信区间、置信度（置信水平）

在中心极限定理中，我们知道从总体中进行N次样本（一个样本中包含多个数据）抽取，N次样本的均值会围绕总体均值上下波动。因此，置信区间就是为总体的均值提供了一个可波动的范围，置信区间与置信度是相对应的。例如，在95%的置信度下，置信区间为【a,b】，可以近似的理解成抽取10000次样本，其中有9500次样本的均值能够落在【a,b】范围内。
详细内容见：理解置信区间、置信度
求解置信区间：
在这里插入图片描述

协方差是啥，怎么判断协方差正负

协方差在概率统计中用于衡量二个变量的总体误差，通俗解释就是用于衡量二个变量变化趋势的一致程度。当这二个变量变化趋势相同时，为正相关关系，协方差为正。当这二个变量变化趋势相反时，为负相关关系，协方差为负。协方差为0代表两个变量不相干。

从而导致协方差的大小不能真实反映二个变量的相关程度，因此引出相关系数来。

辛普森悖论的例子

在这里插入图片描述

ABtest

1.在abtest的应用中 p值的意义，第一类和第二类错误的定义是什么？

p值是假设检验中用于判断显著性的指标。第一类错误α叫弃真错误或显著性水平，即原假设为真时却被我们拒绝的概率；第二类错误β叫采伪错误，即原假设为伪我们没有拒绝的概率。

2.abtest的流程

选取指标->建立假设->计算样本量->假设检验

幸存者偏差

所统计的数据全都来源于幸存的人，因为失败出局者根本没机会给出回答。当样本中有数据缺失时可能出现幸存者偏差。在幸存者偏差这个问题中，我们观察到的样本是被筛选过的有偏样本。例如记者春运的时候在火车上问大家买票难不难，最终得到结论：春运买票很简单（忽略了没有买到票的人）。

解释：幸存者偏差，就是忽略了筛选条件，把经过筛选的结果当成随机结果。

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)