线性分类模型(二):logistic回归模型分析

2023-11-03

前言

上一篇文章介绍了线性判别模型,本文介绍线性生成模型——logistic回归模型。本文介绍logstic回归模型相关的知识,为了更好理解模型的决策边界函数,本文同时分析了多元变量的协方差对概率分布的影响。

 

目录


1、logistic回归模型的含义

2、logistic模型的决策边界函数分析

3、logistic模型的参数最优化

3、logistic回归模型与感知机模型的比较

4、总结

                                              logistic回归模型的含义


我们把分类模型分成两个阶段,推断阶段和决策阶段,推断阶段对联合概率分布建模,然后归一化,得到后验概率。决策阶段确定每个新输入x的类别。

我们用推断阶段的方法来推导logistic回归模型,首先对类条件概率密度和类先验概率分布建模,然后通过贝叶斯定理计算后验概率密度。     

 

结论:logistic回归值表示所属类的后验概率,无论是二分类还是多分类,分类结果都是后验概率最大所对应的类。

 

                                                 logistic的决策边界函数分析


决策边界函数,简而言之,就是函数的两侧是不同的分类结果,如上篇文章所涉及的边界函数是直线,本节首先介绍多元变量高斯分布的概念,然后讨论logistic的决策边界函数。

多元变量高斯分布的协方差解析

多元变量的高斯分布公式:

 

其中,x是D维变量,是变量x的协方差矩阵,u是变量的均值。

 

因此,可定性的分析协方差的三种情况与分布图的关系,(a)图表示正常的协方差矩阵的高斯分布图:(b)图表示协方差矩阵是对角矩阵的高斯分布图;(c)图表示协方差矩阵是对角矩阵且对角元素都相等的高斯分布图。

 

logistic的决策边界函数分析

logistic曲线如下图,红色直线(a=0)表示决策边界函数:

                                            

假设类条件概率密度是高斯分布,即P(x|Ck),然后求解后验概率的表达式,即P(Ck|x)。由第一节可知logistic回归值就是所求的后验概率。

假设类条件概率密度的协方差相同,类条件概率密度为:

                                        

由第一节的推导公式可得后验概率为:

 

其中:

 

 

由后验概率()的表达式可知可知,当类条件的协方差矩阵相等时,决策边界函数是随x线性变化的直线。

结论:如下图,若两类的条件概率密度的协方差相同时(如C1和C2的协方差相同),则决策边界函数是直线;若两类的条件概率密度的协方差不相同时(如C1和C3,C2和C3),则决策边界函数是曲线。判断协方差矩阵是否相同可以根据分布图形形状是否相同来判断,如C1和C2的协方差相同,C3和C1、C2的协方差不相同,协方差如何影响多元变量分布可参考上一小节。

                                                              

假设类条件概率密度符合高斯分布且具有相同的协方差矩阵,则决策边界函数是一条直线;若类条件概率密度符合更一般的指数分布且缩放参数s相同,决策边界函数仍是一条直线。

 

                                          logistic模型的参数最优化


logistic模型损失函数

logistic回归模型的含义是后验概率分布,因此可以从概率的角度去设计损失函数。

 

logistic模型的参数最优化
损失函数最小化等价于模型参数的最优化,如下图:

具体求法在本文不展开,只给出算法思想。

为了避免过拟合问题,则在原来的损失函数增加正则项,然后利用梯度下降法求最优解,这里也不展开。

 

                                        logistic模型与感知机模型的比较


logistic模型与感知机模型的相同点

由第二节分析可知,假设类条件概率分布的协方差相同,则logistic模型的决策边界函数是随x线性变化的直线,因此,感知机模型与logistic模型的分类策略一样,即决策边界函数是一样的。如下图。

                                                             

感知机模型:当点落在直线上方,y>0,则分类结果C1;反之为C2。

logistic模型:当点落在直线上方,y>0,则后验概率P(C1|X)>0.5,分类结果C1;反之为C2。

考虑到对输入变量x进行非线性变换,感知机和logistic模型的分类策略仍一样,决策边界函数相同,如下图:

                                                         

感知机模型当点落在圆外,y>0,则分类结果C1;反之为C2。

logistic模型:当点落在圆外,y>0,则后验概率P(C1|X)>0.5,分类结果C1;反之为C2。

 

                                      logistic模型与感知机模型的异同点


(1)logistic回归模型限制值的范围在0~1,感知机模型对值范围没有限制,因此logistic模型相比感知机模型,对异常点有更强的鲁棒性。如下图,当有异常数据时,logistic模型要好于感知机模型。

                                                             

(2)感知机模型用误分类点到超平面的距离衡量损失函数,而logistic模型则从概率角度去衡量损失函数。

                                                                 总结


logistic回归的含义是后验概率分布,用概率的角度去设计似然函数,logistic模型相比于感知机模型对异常数据具有更好的鲁棒性。

参考:

Christopher M.Bishop <<Pattern Reconition and Machine Learning>>

                                                         

本文内容由网友自发贡献,版权归原作者所有,本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容,请联系:hwhale#tublm.com(使用前将#替换为@)

线性分类模型(二):logistic回归模型分析 的相关文章

随机推荐

  • 去除lcd图片的摩尔纹_科普必修

    妊娠纹是怀孕期间出现在下腹部 臀部 胸部 背部或四肢近端 呈紫色或是紫红色的条纹 据统计 大约70 90 的孕妇在首次怀孕时 会出现妊娠纹 妊娠纹虽对身体健康没有大的危害 但却给罹患孕妇带来了很大的精神压力和心理负担 从而影响其生活质量 什
  • Unity报错 error CS0246: The type or namespace name ‘UI‘ could not be found

    Unity报错 error CS0246 The type or namespace name UI could not be found 在我导入老版本的UnityPackage到2021年1月份的Unity版本的时候 出现了许多警告和e
  • Java网络编程(四) Reactor和Proactor模式

    size medium 在高性能的I O设计中 有两个比较著名的模式Reactor和Proactor模式 其中Reactor模式用于同步I O 而Proactor运用于异步I O操作 color blue b 同步和异步 b color 同
  • 数据仓库与数据挖掘(一)

    1 简述数据仓库有哪些特征 面向主题 集成 稳定性即非易失的 随时间而变化即时变的 2 简述数据仓库与传统数据库的主要区别 一个是数据库 一个是数据仓库 就不是一个东西 怎么区别嘛 数据仓库是建立在数据库之上的一个数据环境 3 为什么需要分
  • Linux下监测网卡状态

    目录 1 说明 2 解析命令法 2 1 CODE 2 2 TEST 3 SOCKET法 1 说明 此代码主要对Linux下网卡4种状态进行检测 可以检查 网卡是否存在 网卡是否down 网卡UP 插了网线 RUNNING 网卡UP 没有插网
  • k8s nginx .yaml 测试

    apiVersion apps v1 kind Deployment metadata name nginx test spec replicas 2 selector matchLabels app nginx test template
  • c++中,什么时候用 A a;和什么时候用A a=new A;

    说明 此处内容是在网上摘抄的 总结一下 为了以后查找方面 new是在堆上分配内存 它需要用delete释放 否则会造成内存泄漏 使用的内存没有即时释放 造成内存的浪费 而A a在右大括号执行后 会自动释放内存 如 int main A a
  • Matlab funnction函数定义及常见扩展应用(@函数句柄,feval函数等)

    目录 MATLAB函数定义 1 函数文件 调用函数文件 定义多个M文件 2 函数文件 子函数 定义一个具有多个子函数的M文件 3 Inline 无需M文件 直接定义 4 匿名函数 5 Syms subs 无需M文件 直接定义 6 字符串 s
  • 数据持久化(Json,二进制,PlayerPrefs)

    数据持久化 文章目录 数据持久化 数据持久化概述 1 数据持久化 JSON 1 Json简介 2 JsonUtility相关知识点 3 LitJson相关知识 4 JsonMgr管理器的书写 2 数据持久化 二进制 1 二进制简介 2 文件
  • Nodejs之Buffer数据转ReadSteam

    当要处理的是一个文件时 stream fs createReadStream content txt 返回一个readStream 文件读取流 输入流 对象 可读流 当处理的是一个Buffer时 用createReadStream就会报错
  • 移动端接口加密

    最近公司写的android接口需要加密 防止被恶意攻击 2加密规则想了个简单的办法 传两个参数 一个是string类型的另一种是MD5加密的密文 在服务端写个拦截器 或者过滤器去拦截他 然后做自己相应的逻辑处理 把string类型的字段拿过
  • 操作系统进程知识概括

    操作系统进程知识概括 进程概述 线程 处理机调度 进程同步 进程互斥 信号量机制 进程互斥同步经典问题 管程 死锁 进程概述 进程概述 程序 是静态的 就是个存放在磁盘里的 可执行文件 就是一系列的指令集合 进程 Process 是动态的
  • OnnxRunTime遇到FAIL : Non-zero status code returned while running BatchNormalization node.

    遇到FAIL Non zero status code returned while running BatchNormalization node 跑onnxruntime时 发现显卡没有用到 pip install onnxruntim
  • Linux中的ssize_t

    2023年7月12日 周三上午 概述 ssize t 是一个数据类型 用于表示有符号的大小 它通常在文件操作和网络编程中用作函数的返回类型或参数类型 头文件 ssize t 在
  • EasyPoi导出 导入(带校验)简单示例 EasyExcel

    官方文档 http doc wupaas com docs easypoi pom的引入
  • 厉害了!知道这样重命名文件都是大佬级别!

    大家好 我是良许 在 Linux 下 重命名一个文件 我们通常是使用 mv 命令 一般是这样操作的 mv file1 txt file2 txt 这样重命令的方式当然是可以 但有个弊端就是你需要输入两次文件名 文件名比较短还好 一旦比较长的
  • zotero 使用方法

    zotero 使用方法总结 前言 zotero 免费开源 功能强大 插件丰富 使用方便 zotero支持多种方式导入文件包括直接拖拽pdf导入文档 DOI arXiv号或从剪切板导入 同时能够使用sci hub 文献下载神器 下载参考文献
  • springboot项目中使用Swagger

    提示 文章写完后 目录可以自动生成 如何生成可参考右边的帮助文档 1 Swagger是啥 Swagger 是一个用于生成 描述和调用 RESTful 接口的 Web 服务 通俗的来讲 Swagger 就是将项目中所有 想要暴露的 接口展现在
  • 【Jmeter】调用java接口进行压测报no cookies问题

    Jmeter 调用java接口进行压测报no cookies问题 问题图片 解决办法 问题图片 解决办法 我的java接口返回参数是json格式 所以要选择如下图所示 最终返回正确的json格式 不在有no cookies问题
  • 线性分类模型(二):logistic回归模型分析

    前言 上一篇文章介绍了线性判别模型 本文介绍线性生成模型 logistic回归模型 本文介绍logstic回归模型相关的知识 为了更好理解模型的决策边界函数 本文同时分析了多元变量的协方差对概率分布的影响 目录 1 logistic回归模型