目录
一.贝叶斯算法:
1.先验概率:
2.后验概率:
3.贝叶斯定理:
4.概率模型:
二.朴素贝叶斯分类器:
1.朴素贝叶斯分类:
2.拉普拉斯修正:
3.防溢出策略:
4.垃圾邮件分类:
三.利用朴素贝叶斯分类对于电子邮件分类
1.使用的数据集:
2.相关代码:
3.运行结果:
贝叶斯方法是以贝叶斯原理为基础,使用概率统计的知识对样本数据集进行分类。由于其有着坚实的数学基础,贝叶斯分类算法的误判率是很低的。贝叶斯方法的特点是结合先验概率和后验概率,即避免了只使用先验概率的主观偏见,也避免了单独使用样本信息的过拟合现象。贝叶斯分类算法在数据集较大的情况下表现出较高的准确率,同时算法本身也比较简单。
朴素贝叶斯方法是在贝叶斯算法的基础上进行了相应的简化,即假定给定目标值时属性之间相互条件独立。也就是说没有哪个属性变量对于决策结果来说占有着较大的比重,也没有哪个属性变量对于决策结果占有着较小的比重。虽然这个简化方式在一定程度上降低了贝叶斯分类算法的分类效果,但是在实际的应用场景中,极大地简化了贝叶斯方法的复杂性。
一.贝叶斯算法:
需要了解贝叶斯算法,首先我们需要了解一下先验概率和后验概率;
1.先验概率:
通常可以用样例中属于c
j
的样例数
|
c
j
|
比上总样例数
|
D
|来近似,
P
(
c
j
)
代表还没有训练模型之前,根据历史数据
/
经验估算
c
j
拥有的初始概率,即先验概率。
2.后验概率:
给定数据样本x
时
c
j
成立的概率
P
(
c
j
|
x
)
被称为后验概率
,它反映了在看到数据样本
x
后
c
j成立的置信度,即观测到
x
后对结果
y
的估计。
在
大部分的机器学习模型中,我们尝试得到的是后验概率,即通过已有的数据构造模型,使得计算机估计新的事件发生的概率。