伯努利分布,又名两点分布或0-1分布,介绍伯努利分布前首先需要引入伯努利试验。 伯努利试验是只有两种可能结果的单次随机试验,即对于一个随机变量X而言:
P
(
X
=
1
)
=
p
P
(
X
=
0
)
=
1
−
p
\begin{array}{l}{P(X=1)=p} \\ {P(X=0)=1-p}\end{array}
P(X=1)=pP(X=0)=1−p 伯努利试验都可以表达为“是或否”的问题。 如果试验E是一个伯努利试验,将E独立重复地进行n次,则称这一串重复的独立试验为n重伯努利试验。 进行一次伯努利试验,成功(X=1)概率为p,失败(X=0)概率为1-p,则称随机变量X服从伯努利分布。 其概率质量函数为:
f
(
x
)
=
p
x
(
1
−
p
)
1
−
x
f(x)=p^{x}(1-p)^{1-x}
f(x)=px(1−p)1−x 伯努利分布的
E
X
=
p
,
D
X
=
p
(
1
−
p
)
E X=p, \quad D X=p(1-p)
EX=p,DX=p(1−p) 伯努利分布是一个离散型概率分布,是N=1时二项分布的特殊情况。 伯努利分布的典型例子:抛一次硬币是正面向上吗?刚出生的小孩是个女孩吗?
二项分布
二项分布是n重伯努利试验成功次数X的离散概率分布。 如果试验E是一个n重伯努利试验,每次伯努利试验的成功概率为p,X代表成功的次数,则X的概率分布是二项分布,记为
X
∼
B
(
n
,
p
)
X \sim B(n, p)
X∼B(n,p) 其概率质量函数为:
P
{
X
=
k
}
=
C
n
k
p
k
(
1
−
p
)
n
−
k
,
k
=
0
,
1
,
2
,
…
,
n
P\{X=k\}=C_{n}^{k} p^{k}(1-p)^{n-k}, k=0,1,2, \ldots, n
P{X=k}=Cnkpk(1−p)n−k,k=0,1,2,…,n 显然
∑
k
=
0
n
P
{
X
=
k
}
=
∑
k
=
0
n
C
n
k
p
k
(
1
−
p
)
n
−
k
=
[
p
+
(
1
−
p
)
]
n
=
1
\sum_{k=0}^{n} P\{X=k\}=\sum_{k=0}^{n} C_{n}^{k} p^{k}(1-p)^{n-k}=[p+(1-p)]^{n}=1
k=0∑nP{X=k}=k=0∑nCnkpk(1−p)n−k=[p+(1−p)]n=1 伯努利分布是二项分布在n=1时的特例。 二项分布名称的由来,是由于其概率质量函数中使用了二项系数,该系数是二项式定理中的系数,二项式定理由牛顿提出:
(
x
+
y
)
n
=
C
n
k
x
k
y
n
−
k
(x+y)^{n}=C_{n}^{k} x^{k} y^{n-k}
(x+y)n=Cnkxkyn−k 二项分布的典型例子是扔硬币,硬币正面朝上概率为p, 重复扔n次硬币,k次为正面的概率即为一个二项分布概率。
多项分布
多项式分布是二项式分布的推广。二项式做n次伯努利实验,规定了每次试验的结果只有两个。 如果现在还是做n次试验,只不过每次试验的结果可以有多m个,且m个结果发生的概率互斥且和为1,则发生其中一个结果X次的概率就是多项分布。 扔骰子是典型的多项式分布。扔骰子,不同于扔硬币,骰子有6个面对应6个不同的点数,这样单次每个点数朝上的概率都是1/6(对应p1~p6,它们的值不一定都是1/6,只要和为1且互斥即可,比如一个形状不规则的骰子),重复扔n次,如果问有k次都是点数6朝上的概率就是:
P
{
X
=
k
}
=
C
n
k
p
6
k
(
1
−
p
6
)
n
−
k
,
k
=
0
,
1
,
2
,
…
,
n
P\{X=k\}=C_{n}^{k} p_{6}^{k}\left(1-p_{6}\right)^{n-k}, k=0,1,2, \ldots, n
P{X=k}=Cnkp6k(1−p6)n−k,k=0,1,2,…,n 多项式分布的概率质量函数为:
P
(
X
1
=
k
1
,
X
2
=
k
2
,
⋯
 
,
X
n
=
k
n
)
=
n
!
(
(
k
1
!
)
(
k
2
!
)
⋯
(
K
n
!
)
)
∏
i
=
1
n
(
P
i
k
i
)
P(X_{1}=k_{1}, X_{2}=k_{2},\cdots, X_{n}=k_{n})=\frac{n!}{((k_{1} !)(k_{2} !) \cdots(K_{n} !))} \prod_{i=1}^{n}(P_{i}^{k_{i}})
P(X1=k1,X2=k2,⋯,Xn=kn)=((k1!)(k2!)⋯(Kn!))n!i=1∏n(Piki)
w
h
e
r
e
∑
i
=
0
n
k
i
=
n
where\sum_{i=0}^{n} k_{i}=n
wherei=0∑nki=n 如: 假设萤火虫对食物的喜欢次序为:花粉,蚜虫,面团。假设20%的萤火虫喜欢花粉,35%的萤火虫喜欢蚜虫,45%的萤火虫喜欢面团。我们对30只萤火虫做实验,发现8只喜欢花粉,10只喜欢蚜虫,12只喜欢面团,则这件事的概率为
P
(
N
1
=
8
,
N
2
=
10
,
N
3
=
12
)
=
30
!
8
!
10
!
12
!
0.
2
8
0.3
5
10
0.4
5
12
P\left(N_{1}=8, N_{2}=10, N_{3}=12\right)=\frac{30 !}{8 ! 10 ! 12 !} 0.2^{8} 0.35^{10} 0.45^{12}
P(N1=8,N2=10,N3=12)=8!10!12!30!0.280.35100.4512
根据这个新的β分布,我们可以得出他的数学期望为:
α
α
+
β
=
82
+
100
82
+
100
+
219
+
200
=
0.303
\frac{\alpha}{\alpha+\beta}=\frac{82+100}{82+100+219+200}=0.303
α+βα=82+100+219+20082+100=0.303 这一结果要比直接估计要小
100
100
+
200
=
0.333
\frac{100}{100+200}=0.333
100+200100=0.333 这是因为我们加入了先验信息:这个运动员在击球之前他已经成功了81次,失败了219次。 对于一个我们不知道概率是什么,而又有一些合理的猜测时,β分布能很好的作为一个表示概率的概率分布。 二项分布的似然函数为:
P
(
data
∣
θ
)
∝
θ
z
(
1
−
θ
)
N
−
z
P(\text { data } | \theta) \propto \theta^{z}(1-\theta)^{N-z}
P( data ∣θ)∝θz(1−θ)N−z
z
=
∑
i
=
1
N
X
i
z=\sum_{i=1}^{N} X_{i}
z=i=1∑NXi β分布的概率密度函数为:
(
a
,
b
)
=
θ
a
−
1
(
1
−
θ
)
b
−
1
B
(
a
,
b
)
∝
θ
a
−
1
(
1
−
θ
)
b
−
1
(a, b)=\frac{\theta^{a-1}(1-\theta)^{b-1}}{B(a, b)} \propto \theta^{a-1}(1-\theta)^{b-1}
(a,b)=B(a,b)θa−1(1−θ)b−1∝θa−1(1−θ)b−1 在β分布中,B函数是一个标准化函数,它只是为了使得这个分布的概率密度积分等于1才加上的。 贝叶斯估计: 我们做贝叶斯估计的目的就是要在给定数据的情况下求出θ的值,所以我们的目的是求解如下后验概率:
P
(
θ
∣
d
a
t
a
)
=
P
(
data
∣
θ
)
P
(
θ
)
P
(
data
)
∝
P
(
data
∣
θ
)
P
(
θ
)
P(\theta | d a t a)=\frac{P(\text { data } | \theta) P(\theta)}{P(\text { data })} \propto P(\text { data } | \theta) P(\theta)
P(θ∣data)=P( data )P( data ∣θ)P(θ)∝P( data ∣θ)P(θ) 因为P(data)与我们所需要估计的θ是独立的,因此我们可以不考虑它。我们称P(data|θ)为似然函数,P(θ)为先验分布。
β分布与二项分布的共轭先验性质:
我们将β分布代进贝叶斯估计中的P(θ)中,将二项分布的似然函数代入P(data|θ)中,可以得到:
P
(
θ
∣
data
)
∝
θ
z
(
1
−
θ
)
N
−
z
θ
a
−
1
(
1
−
θ
)
b
−
1
P(\theta | \text { data }) \propto \theta^{z}(1-\theta)^{N-z} \theta^{a-1}(1-\theta)^{b-1}
P(θ∣ data )∝θz(1−θ)N−zθa−1(1−θ)b−1
∝
θ
a
+
z
−
1
(
1
−
θ
)
b
+
N
−
z
−
1
\propto \theta^{a+z-1}(1-\theta)^{b+N-z-1}
∝θa+z−1(1−θ)b+N−z−1 假设
a
′
=
a
+
z
a^{\prime}=a+z
a′=a+z
b
′
=
b
+
N
−
z
b^{\prime}=b+N-z
b′=b+N−z 我们发现这个贝叶斯估计服从
(
a
′
,
b
′
)
\left(a^{\prime}, b^{\prime}\right)
(a′,b′) 分布,我们只要用B函数将它标准化就得到我们的后验概率:
P
(
θ
∣
d
a
t
a
)
=
θ
a
′
−
1
(
1
−
θ
)
b
′
−
1
B
(
a
′
,
b
′
)
P(\theta | d a t a)=\frac{\theta^{a^{\prime}-1}(1-\theta)^{b^{\prime}-1}}{B\left(a^{\prime}, b^{\prime}\right)}
P(θ∣data)=B(a′,b′)θa′−1(1−θ)b′−1
狄利克雷分布
Dirichlet分布可以看做是分布之上的分布。 在伯努利分布里,参数μ就是抛硬币取某一面的概率,因为伯努利分布的状态空间只有{0,1}。但是在多项分布里,因为状态空间有K个取值,因此μ变成了向量。 多项分布的likelihood函数形式是:
∏
μ
x
m
i
\prod \mu_{x}^{m_{i}}
∏μxmi 因此狄利克雷分布的函数形式如下:
p
(
μ
∣
α
)
∝
∏
k
=
1
K
μ
k
α
k
−
1
p(\mu | \alpha) \propto \prod_{k=1}^{K} \mu_{k}^{\alpha_{k-1}}
p(μ∣α)∝k=1∏Kμkαk−1
∑
k
μ
k
=
1
,
α
⃗
=
(
α
1
,
…
,
α
k
)
\sum_{k} \mu_{k}=1, \vec{\alpha}=\left(\alpha_{1}, \ldots, \alpha_{k}\right)
k∑μk=1,α=(α1,…,αk) 是迪利特雷参数,把上式归一化为真正的迪利特雷分布为:
Dir
(
μ
∣
α
)
=
Γ
(
α
0
)
Γ
(
α
1
)
…
Γ
(
α
k
)
∏
k
=
1
K
μ
k
α
k
−
1
\operatorname{Dir}(\mu | \alpha)=\frac{\Gamma\left(\alpha_{0}\right)}{\Gamma\left(\alpha_{1}\right) \ldots \Gamma\left(\alpha_{k}\right)} \prod_{k=1}^{K} \mu_{k}^{\alpha_{k}-1}
Dir(μ∣α)=Γ(α1)…Γ(αk)Γ(α0)k=1∏Kμkαk−1
a
0
=
∑
k
=
1
K
α
k
a_{0}=\sum_{k=1}^{K} \alpha_{k}
a0=k=1∑Kαk 这个函数和贝塔分布有点像,跟多项式分布也有点像。就像β分布那样,狄利克雷分布就是它所对应的后验多项分布的参数μ的分布,只不过μ是一个向量。 举例: 假设我们有一个骰子,其有六面,分别为{1,2,3,4,5,6}。现在我们做了10000次投掷的实验,得到的实验结果是六面分别出现了{2000,2000,2000,2000,1000,1000}次,如果用每一面出现的次数与试验总数的比值估计这个面出现的概率,则我们得到六面出现的概率,分别为{0.2,0.2,0.2,0.2,0.1,0.1}。现在,我们还不满足,我们想要做10000次试验,每次试验中我们都投掷骰子10000次。我们想知道,骰子六面出现概率为{0.2,0.2,0.2,0.2,0.1,0.1}的概率是多少(说不定下次试验统计得到的概率为{0.1, 0.1, 0.2, 0.2, 0.2, 0.2}这样了)。这样我们就在思考骰子六面出现概率分布这样的分布之上的分布。而这样一个分布就是Dirichlet分布。
高斯分布
其实就是正态分布,又叫高斯分布。 若随机变量X服从一个数学期望为μ、方差为σ2的正态分布,则其概率密度函数为:
f
(
x
)
=
1
σ
2
π
e
−
(
x
−
μ
)
2
2
σ
2
f(x)=\frac{1}{\sigma \sqrt{2 \pi}} e^{-\frac{(x-\mu)^{2}}{2 \sigma^{2}}}
f(x)=σ2π1e−2σ2(x−μ)2 正态分布的期望值μ决定了其位置,其标准差σ决定了分布的幅度。当μ=0,σ2=1时的正态分布是标准正态分布。