朴素贝叶斯是一种基于贝叶斯定理的分类方法。该算法是有监督的学习算法,解决分类问题。在该算法中,我们假设给定目标值时,属性之间相互条件独立,即
。
贝叶斯定理:对于分类问题,样本x属于类别y的概率
其中, P(y)是指未使用数据训练分类器之前的y的初始概率,称为先验概率; P(x|y)是样本x相对于类别y的类条件概率,称为似然; P(y|x)是给定x时,y成立的概率,称为后验概率;P(x)是归一化证据因子。
用天气的数据集做预测,假设全部属性都对决策有着相同的重要性,且相互条件独立。按照类别统计了每个属性的取值次数如下表:
假设一个样本的属性值分别为sunny、cool、high和TRUE,要预测是否可运动(play=yes),概率的计算,例如outlook=sunny, play=yes的概率为:
。
我们可以先计算出play为yes的似然:
Yes的似然=
;
No的似然=
。
用规范化的方法将似然转化为概率,分母
为yes的似然加上no的似然,为
。
根据贝叶斯定理,play为yes的概率
;
play为no的概率
。
根据计算结果,当outlook为sunny、temperature为cool、humidity为high、windy为TRUE的情况下,play为no。
但如果分母这样计算:
与上面计算的分母0.025862不一致,因为朴素贝叶斯假定的是给定的属性目标值的情况下,属性之间是相互独立的,并不是在所有情况下属性之间都是相互独立的。