这里写目录标题
- 1.常见的统计学分布
-
- 为什么我们喜欢用 sigmoid 这类 S 型非线性变换
- 1)为什么均匀分布熵最大?
- 2)为什么使用累积分布函数将正态分布的信号生成均匀分布?
- 为什么我们喜欢用 sigmoid 这类 S 型非线性变换
1.常见的统计学分布
1)离散分布
a. 伯努利分布
又称之为二点分布或者0-1分布,是一种离散分布,例如抛硬币的正面或反面,物品有缺陷或没缺陷,病人康复或未康复,此类满足「只有两种可能,试验结果相互独立且对立」的随机变量通常称为伯努利随机变量。
对于伯努利随机变量 X,如果使用 1 表示成功,其概率为 p(0<p<1);使用 0 表示失败,其概率为 q=1-p。则可以称伯努利随机变量 X 服从参数为 p 的伯努利分布,其X的概率函数为:
b. 二项分布
假设某个试验是伯努利试验,其成功概率用p表示,那么失败的概率为q=1-p。进行n次这样的试验,成功了x次,则失败次数为n-x,发生这种情况的概率可用下面公式来计算:
二项分布,可以看成是完成N次伯努利试验的分布,也可以被称之为N重伯努利实验。
n 重伯努利试验需满足下列条件:
- 每次试验只有两种结果,即 X=1,或 X=0
- 各次试验中的事件互相独立,且 X=1 和 X=0 的概率分别为 p(0<p<1) 和 1-p
二项分布的另一个性质是其分布形状的变化规律。从二项分布概率质量函数P(x)可知,概率分布只与试验次数n和成功概率p有关,其分布形状的变化规律为:
- "成功"概率p越接近0.5(也即"成功"概率与"失败"概率越接近),二项分布将越对称。保持二项分布试验的次数n不变,随着成功概率p越接近0.5,二项分布逐渐对称,且近似于均值为np、方差为npq的正态分布。(见下图的第一排3个子图)
- 对于任意"成功"概率p,无论其距离0.5有多远,随着试验次数n的增加,二项分布与均值为np、方差为npq的正态分布越来越接近。(见下图的第二排3个子图)
图中的横轴代表试验"成功"的次数;纵轴代表次数对应的概率;红线是均值为np、方差为npq的正态分布曲线。
c. 泊松分布
泊松概率分布描述的是在某段时间或某个空间内发生随机事件次数的概率,简而言之就是:根据过去某个随机事件在某段时间或某个空间内发生的平均次数,预测该随机事件在未来同样长的时间或同样大的空间内发生k次的概率。其概率质量函数为:
如何通俗理解泊松分布
2)连续分布
a. 正态分布(高斯分布)
正态分布(Normal distribution),也称“常态分布”,又名高斯分布。
若随机变量X服从一个数学期望为μ、方差为σ2的正态分布,记为N(μ, σ2)。
其概率密度函数为正态分布的期望值μ决定了其位置,其标准差σ决定了分布的幅度。
当μ = 0,σ = 1时的正态分布是标准正态分布。
正态分布的概率密度函数为:
函数图像为下:
四个不同参数集的概率密度函数(红色线代表标准正态分布)
上图所示的概率密度函数的累积分布函数。
b. 均匀分布
均匀分布也叫矩形分布,它是对称概率分布,在相同长度间隔的分布概率是等可能的。 均匀分布由两个参数a和b定义,它们是数轴上的最小值和最大值,通常缩写为U(a,b)。
- 均匀分布的概率密度函数为:
该密度函数表示随机变量X落在区间a,b中任意长度的子区间内的可能性是相同的,概率只依赖于子区间长度,而与子区间未知无关。
概率密度函数怎么求得的:
- 均匀分布的分布函数如下:
为什么我们喜欢用 sigmoid 这类 S 型非线性变换
首先明确两个问题:
1)为什么均匀分布熵最大?
熵的概念:熵表示随机变量不确定性的度量
随机变量熵的定义为:
- 熵只依赖于X的分布,与X的取值无关,因此服从某个分布的X的熵也可以等价于这个分布的熵.
- 熵越大,随机变量的不确定性就越大。
- 定义0log0=0(因为可能出现某个取值概率为0的情况)
熵满足下列不等式:
0 <= H(p) <= log|X|
|X|是离散随机变量 X 的取值个数,当且仅当 X 的分布是均匀分布时右边的等号成立。这就是说,当 X 服从均匀分布时,熵最大。
《统计学习方法》5.2.2节和6.2节有介绍!
相关的参考博客:
各种熵的总结
最大熵与正态分布
2)为什么使用累积分布函数将正态分布的信号生成均匀分布?
random.random()(该方法会均匀地生成(0,1)区间内的值)
上图为从我们的输入中采样得到 100,000 个样本的直方图,蓝色为均匀分布,橙色为我们的目标:正态分布
简而言之,我们希望将图 1 中蓝色的均匀分布转换为橙色的正太分布。幸运的是,有一种函数可以做到这一点:逆累积分布函数(又称分位函数)。
上图为标准正态分布的累积分布函数 CDF 曲线。非逆的)累积分布函数(CDF)如图所示,它描述了从所讨论的分布中任意抽取出的值小于等于特定的 x 值的概率。
举例而言,如上图所示,在 x = 0 时,y = 0.5;这意味着 50% 的分布落在 x = 0 左侧。CDF的一个方便的特性是:输出的范围在 0 到 1 之间,这正是我们可以通过「random.random()」函数得到的输入!
如果我们对 CDF 求反函数(将其坐标轴翻转),我们就可以得到分位函数:
上图为标准正态分布的分位函数。
该函数为我们给出了确切的分位数(范围在 0 到 1 之间的 x)和相应的正态分布中的值的对应关系,让我们可以直接从正态分布中采样。也就是说「 f(random.random()) ~ N(0, 1)」,其中输入空间中的每个点都对应于输出空间中的唯一一个点。
上图为:使用分位函数将均匀分布(蓝色)映射到正态分布(橙色)的示意图。
反过来:
如果想要将正态分布(橙色)映射到均匀分布(蓝色),直接使用累积分布函数(CDF)即可!
为什么我们喜欢用 sigmoid 这类 S 型非线性变换
为什么我们喜欢用 sigmoid 这类 S 型非线性变换
本文内容由网友自发贡献,版权归原作者所有,本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容,请联系:hwhale#tublm.com(使用前将#替换为@)