线性分类模型（二）：logistic回归模型分析

2023-11-03

前言

上一篇文章介绍了线性判别模型，本文介绍线性生成模型——logistic回归模型。本文介绍logstic回归模型相关的知识，为了更好理解模型的决策边界函数，本文同时分析了多元变量的协方差对概率分布的影响。

1、logistic回归模型的含义

2、logistic模型的决策边界函数分析

3、logistic模型的参数最优化

3、logistic回归模型与感知机模型的比较

4、总结

logistic回归模型的含义

我们把分类模型分成两个阶段，推断阶段和决策阶段，推断阶段对联合概率分布建模，然后归一化，得到后验概率。决策阶段确定每个新输入x的类别。

我们用推断阶段的方法来推导logistic回归模型，首先对类条件概率密度和类先验概率分布建模，然后通过贝叶斯定理计算后验概率密度。

结论：logistic回归值表示所属类的后验概率，无论是二分类还是多分类，分类结果都是后验概率最大所对应的类。

logistic的决策边界函数分析

决策边界函数，简而言之，就是函数的两侧是不同的分类结果，如上篇文章所涉及的边界函数是直线，本节首先介绍多元变量高斯分布的概念，然后讨论logistic的决策边界函数。

多元变量高斯分布的协方差解析

多元变量的高斯分布公式：

其中，x是D维变量，是变量x的协方差矩阵，u是变量的均值。

因此，可定性的分析协方差的三种情况与分布图的关系，（a）图表示正常的协方差矩阵的高斯分布图：（b）图表示协方差矩阵是对角矩阵的高斯分布图；（c）图表示协方差矩阵是对角矩阵且对角元素都相等的高斯分布图。

logistic的决策边界函数分析

logistic曲线如下图，红色直线（a=0）表示决策边界函数：

假设类条件概率密度是高斯分布，即P(x|Ck)，然后求解后验概率的表达式，即P(Ck|x)。由第一节可知logistic回归值就是所求的后验概率。

假设类条件概率密度的协方差相同，类条件概率密度为：

由第一节的推导公式可得后验概率为：

其中：

由后验概率（）的表达式可知可知，当类条件的协方差矩阵相等时，决策边界函数是随x线性变化的直线。

结论：如下图，若两类的条件概率密度的协方差相同时（如C1和C2的协方差相同），则决策边界函数是直线；若两类的条件概率密度的协方差不相同时（如C1和C3，C2和C3），则决策边界函数是曲线。判断协方差矩阵是否相同可以根据分布图形形状是否相同来判断，如C1和C2的协方差相同，C3和C1、C2的协方差不相同，协方差如何影响多元变量分布可参考上一小节。

假设类条件概率密度符合高斯分布且具有相同的协方差矩阵，则决策边界函数是一条直线；若类条件概率密度符合更一般的指数分布且缩放参数s相同，决策边界函数仍是一条直线。

logistic模型的参数最优化

logistic模型损失函数

logistic回归模型的含义是后验概率分布，因此可以从概率的角度去设计损失函数。

logistic模型的参数最优化
损失函数最小化等价于模型参数的最优化，如下图：

具体求法在本文不展开，只给出算法思想。

为了避免过拟合问题，则在原来的损失函数增加正则项，然后利用梯度下降法求最优解，这里也不展开。

logistic模型与感知机模型的比较

logistic模型与感知机模型的相同点

由第二节分析可知，假设类条件概率分布的协方差相同，则logistic模型的决策边界函数是随x线性变化的直线，因此，感知机模型与logistic模型的分类策略一样，即决策边界函数是一样的。如下图。

感知机模型：当点落在直线上方，y>0，则分类结果C1；反之为C2。

logistic模型：当点落在直线上方，y>0，则后验概率P(C1|X)>0.5，分类结果C1；反之为C2。

考虑到对输入变量x进行非线性变换，感知机和logistic模型的分类策略仍一样，决策边界函数相同，如下图：

感知机模型：当点落在圆外，y>0，则分类结果C1；反之为C2。

logistic模型：当点落在圆外，y>0，则后验概率P(C1|X)>0.5，分类结果C1；反之为C2。

logistic模型与感知机模型的异同点

（1）logistic回归模型限制值的范围在0~1，感知机模型对值范围没有限制，因此logistic模型相比感知机模型，对异常点有更强的鲁棒性。如下图，当有异常数据时，logistic模型要好于感知机模型。

（2）感知机模型用误分类点到超平面的距离衡量损失函数，而logistic模型则从概率角度去衡量损失函数。

总结

logistic回归的含义是后验概率分布，用概率的角度去设计似然函数，logistic模型相比于感知机模型对异常数据具有更好的鲁棒性。

参考：

Christopher M.Bishop <<Pattern Reconition and Machine Learning>>

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)