本文主要对机器学习中的高斯分布进行总结:
- 第一章先总结一元高斯分布和多元高斯分布的概率密度函数;
- 第二章以一元高斯分布为例,通过极大似然估计推导一元高斯分布中均值和方差的求法,并验证均值是无偏估计,而方差是有偏估计(相对真实值偏小);
- 第三章主要对多元高斯分布的二次型部分进行介绍,并通过吴恩达课程中二元高斯分布的图像,体验一下均值和协方差矩阵对分布图像的影响,最后点明高斯分布在实际应用中的两个问题和解决方法;
- 第四章主要推导在已知联合分布的情况下,如何求解边缘分布和条件分布;
- 第五章主要推导线性高斯系统中相关分布的求解,可用于卡尔曼滤波的推导等。
一、高斯分布的概率密度函数
二、一元高斯分布的极大似然估计
2.1
μ
M
L
E
,
σ
M
L
E
\mu_{MLE},\sigma_{MLE}
μMLE,σMLE 的求解
2.2 验证
μ
M
L
E
,
σ
M
L
E
\mu_{MLE},\sigma_{MLE}
μMLE,σMLE 的无偏性
实际上,通过极大似然估计得到的
μ
M
L
E
\mu_{MLE}
μMLE 是无偏估计,而
σ
M
L
E
\sigma_{MLE}
σMLE 是相对真实方差偏小的有偏估计,原因如下:
三、多元高斯分布
在推导过程中,我们做以下的规定:
3.1 马氏距离
多元高斯分布中
(
x
−
μ
)
T
Σ
−
1
(
x
−
μ
)
(x-\mu)^T\Sigma^{-1}(x-\mu)
(x−μ)TΣ−1(x−μ) 部分其实是一个马氏距离,其值是一个数。当
Σ
−
1
\Sigma^{-1}
Σ−1 是一个单位矩阵时,马氏距离即为欧式距离:
3.2
(
x
−
μ
)
T
Σ
−
1
(
x
−
μ
)
(x-\mu)^T\Sigma^{-1}(x-\mu)
(x−μ)TΣ−1(x−μ) 的求解
特别地,令 p = 2,我们来看一下二元高斯分布的图像情况,并通过几个图来了解一下均值和协方差矩阵对图像分布的影响:
3.3 实际应用过程的问题
- 实际应用中,协方差矩阵
Σ
\Sigma
Σ 有
p
(
p
+
1
)
2
\frac{p(p+1)}{2}
2p(p+1) 个自由参数,复杂度为
O
(
p
2
)
O(p^2)
O(p2),因此在高维时常常假设
Σ
\Sigma
Σ 为对角阵
- 单个高斯分布的拟合能力是有限的,因此后续引入了高斯混合模型等模型
四、联合分布 -> 边缘分布 + 条件分布
4.1 数据说明
4.2 关键推论
在后面的推导中,我们会经常用到下面这个推理,此处证明略:
4.3 求解边缘分布
P
(
x
a
)
P(x_a)
P(xa)
4.4 求解条件分布
P
(
x
b
∣
x
a
)
P(x_b|x_a)
P(xb∣xa)
使用配方法也可以推导出条件分布
P
(
x
b
∣
x
a
)
P(x_b|x_a)
P(xb∣xa),但在这里我们使用巧妙且比较简单的构造法进行推导:
五、线性高斯系统
5.1 问题介绍
5.2 求解
P
(
y
)
P(y)
P(y)
5.3 求解
P
(
x
∣
y
)
P(x|y)
P(x∣y)
六、参考资料
-
哔哩哔哩白板推导系列视频
-
机器学习第九周(三)–多元高斯分布