拉普拉斯平滑(Laplace Smoothing)
拉普拉斯平滑(Laplace Smoothing)又称为加 1 平滑,是比较常用的平滑方法。平滑方法的存在时为了解决零概率问题。
一、为什么要做平滑?
零概率问题:在计算事件的概率时,如果某个事件在观察样本库(训练集)中没有出现过,会导致该事件的概率结果是 0 。这是不合理的,不能因为一个事件没有观察到,就被认为该事件一定不可能发生(即该事件的概率为 0 )
二、理论支撑
为了解决零概率的问题,法国数学家拉普拉斯最早提出用加1的方法估计没有出现过的现象的概率,所以加法平滑也叫做拉普拉斯平滑。
假定训练样本很大时,每个分量x的计数加1造成的估计概率变化可以忽略不计,但可以方便有效的避免零概率问题。
三、公式
对于一个随机变量,它的取值范围是{1,2,3…,k},在m次试验过后的观测结果为
{
z
(
1
)
,
z
(
2
)
,
z
(
3
)
.
.
.
,
z
(
m
)
}
\{z^{(1)},z^{(2)},z^{(3)}...,z^{(m)}\}
{z(1),z(2),z(3)...,z(m)},极大似然按照以下公式计算:
ϕ
=
∑
i
=
1
m
I
{
z
i
=
j
}
m
(1)
\phi=\frac{\sum_{i=1}^mI\{z^{i}=j\}}{m}\tag{1}
ϕ=m∑i=1mI{zi=j}(1) 使用Laplace平滑后,计算公式变为:
ϕ
=
∑
i
=
1
m
I
{
z
i
=
j
}
+
1
m
+
k
(2)
\phi=\frac{\sum_{i=1}^mI\{z^{i}=j\}+1}{m+k}\tag{2}
ϕ=m+k∑i=1mI{zi=j}+1(2)
总结
拉普拉斯平滑:分子加1,分母加K,K代表类别数目
引用