常用分类算法的优缺点和相关评价指标

2023-10-31

 

算法 优点 缺点
Bayes 贝叶斯分类法 1)所需估计的参数少,对于缺失数据不敏感。2)有着坚实的数学基础,以及稳定的分类效率。 1)假设属性之间相互独立,这往往并不成立。(喜欢吃番茄、鸡蛋,却不喜欢吃番茄炒蛋)。2)需要知道先验概率。3)分类决策存在错误率。
Decision Tree决策树 1)不需要任何领域知识或参数假设。2)适合高维数据。3)简单易于理解。4)短时间内处理大量数据,得到可行且效果较好的结果。5)能够同时处理数据型和常规性属性。 1)对于各类别样本数量不一致数据,信息增益偏向于那些具有更多数值的特征。2)易于过拟合。3)忽略属性之间的相关性。4)不支持在线学习。
SVM支持向量机 1)可以解决小样本下机器学习的问题。2)提高泛化性能。3)可以解决高维、非线性问题。超高维文本分类仍受欢迎。4)避免神经网络结构选择和局部极小的问题。 1)对缺失数据敏感。2)内存消耗大,难以解释。3)运行和调差略烦人。
KNN K近邻 1)思想简单,理论成熟,既可以用来做分类也可以用来做回归; 2)可用于非线性分类; 3)训练时间复杂度为O(n); 4)准确度高,对数据没有假设,对outlier不敏感; 1)计算量太大2)对于样本分类不均衡的问题,会产生误判。3)需要大量的内存。4)输出的可解释性不强。
Logistic Regression逻辑回归 1)速度快。2)简单易于理解,直接看到各个特征的权重。3)能容易地更新模型吸收新的数据。4)如果想要一个概率框架,动态调整分类阀值。 特征处理复杂。需要归一化和较多的特征工程。
Neural Network 神经网络 1)分类准确率高。2)并行处理能力强。3)分布式存储和学习能力强。4)鲁棒性较强,不易受噪声影响。 1)需要大量参数(网络拓扑、阀值、阈值)。2)结果难以解释。3)训练时间过长。
Adaboosting 1)adaboost是一种有很高精度的分类器。2)可以使用各种方法构建子分类器,Adaboost算法提供的是框架。3)当使用简单分类器时,计算出的结果是可以理解的。而且弱分类器构造极其简单。4)简单,不用做特征筛选。5)不用担心overfitting。

这里介绍几个常见的 模型评价术语,现在假设我们的分类目标只有两类,计为正例(positive)和负例(negative)分别是:

  1. True positives(TP): 被正确地划分为正例的个数,即实际为正例且被分类器划分为正例的实例数(样本数);
  2. False positives(FP): 被错误地划分为正例的个数,即实际为负例但被分类器划分为正例的实例数;
  3. False negatives(FN):被错误地划分为负例的个数,即实际为正例但被分类器划分为负例的实例数;
  4. True negatives(TN): 被正确地划分为负例的个数,即实际为负例且被分类器划分为负例的实例数。 

上图是这四个术语的混淆矩阵。 1)P=TP+FN表示实际为正例的样本个数。 2)True、False描述的是分类器是否判断正确。 3)Positive、Negative是分类器的分类结果,如果正例计为1、负例计为-1,即positive=1、negative=-1。用1表示True,-1表示False,那么实际的类标=TF*PN,TF为true或false,PN为positive或negative。 4)例如True positives(TP)的实际类标=1*1=1为正例,False positives(FP)的实际类标=(-1)*1=-1为负例,False negatives(FN)的实际类标=(-1)*(-1)=1为正例,True negatives(TN)的实际类标=1*(-1)=-1为负例。

  1. 评价指标
    1. 正确率(accuracy) 正确率是我们最常见的评价指标,accuracy = (TP+TN)/(P+N),正确率是被分对的样本数在所有样本数中的占比,通常来说,正确率越高,分类器越好。
    2. 错误率(error rate) 错误率则与正确率相反,描述被分类器错分的比例,error rate = (FP+FN)/(P+N),对某一个实例来说,分对与分错是互斥事件,所以accuracy =1 - error rate。
    3. 灵敏度(sensitive) sensitive = TP/P,表示的是所有正例中被分对的比例,衡量了分类器对正例的识别能力。
    4. 特效度(specificity) specificity = TN/N,表示的是所有负例中被分对的比例,衡量了分类器对负例的识别能力。
    5. 精度(precision) 精度是精确性的度量,表示被分为正例的示例中实际为正例的比例,precision=TP/(TP+FP)。
    6. 召回率(recall) 召回率是覆盖面的度量,度量有多个正例被分为正例,recall=TP/(TP+FN)=TP/P=sensitive,可以看到召回率与灵敏度是一样的。
    7. 其他评价指标 计算速度:分类器训练和预测需要的时间; 鲁棒性:处理缺失值和异常值的能力; 可扩展性:处理大数据集的能力; 可解释性:分类器的预测标准的可理解性,像决策树产生的规则就是很容易理解的,而神经网络的一堆参数就不好理解,我们只好把它看成一个黑盒子。
    8. 查准率和查全率反映了分类器分类性能的两个方面。如果综合考虑查准率与查全率,可以得到新的评价指标F1测试值,也称为综合分类率:$F1=\frac{2 \times precision \times recall}{precision + recall}$ 为了综合多个类别的分类情况,评测系统整体性能,经常采用的还有微平均F1(micro-averaging)和宏平均F1(macro-averaging )两种指标。宏平均F1与微平均F1是以两种不同的平均方式求的全局的F1指标。其中宏平均F1的计算方法先对每个类别单独计算F1值,再取这些F1值的算术平均值作为全局指标。而微平均F1的计算方法是先累加计算各个类别的a、b、c、d的值,再由这些值求出F1值。由两种平均F1的计算方式不难看出,宏平均F1平等对待每一个类别,所以它的值主要受到稀有类别的影响,而微平均F1平等考虑文档集中的每一个文档,所以它的值受到常见类别的影响比较大。 

 

本文内容由网友自发贡献,版权归原作者所有,本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容,请联系:hwhale#tublm.com(使用前将#替换为@)

常用分类算法的优缺点和相关评价指标 的相关文章

  • 电商平台项目----项目搭建

    目录 项目介绍 其他配置 eslint 校验功能关闭 src文件简写方法 配置别名 项目路由分析 vue router 路由 路由组件 完成非路由组件 Header Footer 组件 步骤 配置less 路由组件的搭建 路由组件与非路由组
  • 关于微信小程序使用JavaScript求解背包问题

    背包问题求解 拟解决生活中常见的问题之一 背包问题 wxml wxss js 拟解决生活中常见的问题之一 背包问题 该问题要求在一个物品集合中选择合适的物品放入背包 在放入背包中的物品总重量不超过背包容量的前提下 希望放入背包的物品总价值最
  • 学scratch和机器人编程哪个好

    学scratch和机器人编程哪个好 小孩的学习一直都是家长们非常关心和重视的一件事情 很多的家长在培养孩子的学习方面也可以说是相当耐心的 会给孩子选择一些能够有利于孩子成长的课程 就拿现在很多的家长想要孩子去学习机器人编程的课程来说 有的家
  • 电脑取消撤销快捷键是什么_电脑健盘中的所有英文组合意思超值解释建议收藏...

    电脑键盘上 所有英文键的意思 1 Esc 取消和退出键 2 Tab 表格键切换键 3 Caps Lock 字母大小写切换键 4 Shift 转换键 5 Ctrl 控制键 需要配合其他键或鼠标使用 例如复制CtrI C 6 Alt 可选 切换
  • 《Linux设备节点创建》用户空间ueventd创建设备节点规则

    转自 http blog csdn net tankai19880619 article details 11726371 说明 本文基于Android2 3和Linux2 6 其余版本仅供参考 一 devfs udev和sysfs是什么关
  • 补充对“Cannot determine link language for target”出现该问题的另外一种原因

    在上一篇的文章里面 我曾今讲解为什么会出现如下错误提示的原因 CMake Error CMake can not determine linker language for target xxxxx CMake Error Cannot d
  • Failed connect to 192.168.213.129:8080; No route to host

    在VMware虚拟机中运行tomcat 但是在主机访问虚拟机中的Tomcat的时候出现无法访问的情况 但是两者又能ping的通 在另一个虚拟机中用curl命令来运行的时候抛出如下异常 命令如下 curl XGET http 192 168
  • 为什么要坚持写博客?

    我是一个一直不喜欢做笔记的人 从小学开始一直到研究生 好记性不如烂笔头的话一直都深知其意 但是一直对它没能形成一个较为深刻的认识 感觉很耗时间 做笔记也总是找不到重点 好几次决定开始好好做笔记 记录自己的进步以及于自己有用的知识点 到头来
  • 大小堆以及TOP K问题

    完全二叉树 如上图所示 我们可以将完全二叉树的结点按照层序遍历的顺序储存在一个数组中 那么当完全二叉树中的某个结点位于array的i处时 其左子节点必位于2i 1处 i gt 0 其右结点必位于array的2i 2处 这样我们就可以轻易的实
  • 互联网摸鱼日报(2023-04-03)

    互联网摸鱼日报 2023 04 03 博客园新闻 华为为什么要守住 不造车 底线 蔚来李斌 蔚来手机将于三季度发布和交付 电商价格战 淘宝舞剑 意在何处 ChatGPT科研神器 论文翻译润色一键搞定 还能帮你读代码 一夜蹿红 又一款中国出海
  • loadrunner关于回放脚本时session失效的问题

    在使用loadrunner录制脚本后 进行回放时 会出现session已经失效的情况 为解决这个问题 就应该将请求中的userSession进行参数化 使其自动获得当前的userSession 具体脚本如下 在我们打开连接时 首先我们会向服
  • CreateEvent自动重置事件对象

    include
  • git查看和切换账号

    查看当前登录账号 git config user name 查看当前登录邮箱 git config user email 修改用户名和邮箱 git config global user name your name git config g
  • 论文理解之增加换脸效果 FaceShifter: Towards High Fidelity And Occlusion Aware Face Swapping

    论文 FaceShifter Towards High Fidelity And Occlusion Aware Face Swapping 论文地址 https arxiv org pdf 1912 13457 pdf 换脸是非常吸引人的
  • uniapp 自定义弹窗组件

    先上效果 组件源码 slot modal vue
  • npm配置文件

    npm配置文件是 npmrc 默认在用户目录下 如果没有找到 用命令来看 npm config get userconfig 查看配置文件路径 以下config命令也是很好用 npm config ls l 查看所有配置项 npm conf
  • I2C总线上的上拉电阻设置

    https wenku baidu com view 985db25e4a7302768e9939f8 fr ViewCollect i2c原理讲解 问 如题 除了地址不重复外 听说IC 数量只受到总线的最大电容 400pF 限制 那么电容
  • HTTP请求响应系列02_响应报文的详解

    响应报文 1 响应报文的详解 上篇文字讲的 请求报文 本篇主要解释响应报文包括的内容 响应报文的内容也包括三部分 分别是 响应行 响应头 响应体 这三部分放的都是信息 是S端发给B端的信息 道理是一样的 响应 就是请求后的结果 栗子 接上篇
  • Http 响应头 Transfer-Encoding : chunked 导致 浏览器客户端请求错误问题

    生产环境服务器规划如下 服务器 类型 网络环境 cal com nginx 外网 192 168 7 15 9200 tomcat 内网 192 168 7 16 9200 tomcat 内网 sdd com nginx 内网 192 16
  • 如何在当前目录下查看npm已安装了哪些库

    要查看在当前目录下 npm 已安装的库 可以在命令行中输入以下命令 npm list

随机推荐

  • html下拉菜单栏代码

  • 记一次Redhat7无法正常开机的解决过程

    事情的起源是使用VMWare虚拟平台克隆一个虚拟机的时候 克隆之前将网络配置全部删掉 然后将虚拟机关机 然后克隆出来一台之后 发现两台都无法正常的开机 症状是监视器会显示一个灰色的7背景 然后虽然没有死机但是也无法进入登录窗口 由于克隆之前
  • Failed to restart ssh.service: Unit not found. Centos7不能启动ssh服务

    升级ssh后重启服务 systemctl restart sshd service 遇到报错 Failed to restart ssh service Unit not found 解决方法 执行以下命令即可 进入 etc init d
  • PostgreSQL REPMGR 灾难恢复过程复盘

    大家肯能注意到 最近一直都是各种数据库的灾难恢复的复盘 本身作为一个TEAM 的LEADER 我想到的是在紧急情况下 我们应该有一个应对的措施 对每一个 TEAM 的 DBA 都应该在那个时候沉着冷静 并且知道那些是应该做的 那些是不该做的
  • 记录Mysql使用小技巧

    1 统计用逗号分隔字段中的元素 例如 有如下数据 需要把participants中每个元素出现的次数及对应的id统计出来 id participants 169 吉利 搜狗 1 170 吉利 搜狗 2 171 吉利 3 172 吉利 4 1
  • MySQL的一些基本操作

    现在有的时候线上数据不能直接操作IDE工具 SQL是避免不了的 而且即使是开发也会用到一些语句 将常用的聚集在一起 一 字段 a 表结构修改 1 增加字段 TABLE关键字不能少 ALTER TABLE xxx order ADD orde
  • kali 中msfconsole报警“WARNING: No database support: could not connect to server: Connection refused”及解决

    问题点 kali 2020 02版中msfconsole报警 WARNING No database support could not connect to server Connection refused 解决方法 step1 在终端
  • 126.数据链路层有哪些协议?

    PPP 点到点 HDLC 高级数据链路协议 csma cd carrier sensor multiple access collosion detect 载波多路监听 冲突检测 工作原理 先听后发 边听边发 冲突停发 随机延迟后重发
  • centos7使用rpmbuild制作rpm包

    本文作为我实验的一个总结文档 可能实现的功能比较简单 适合于想要简单入门使用的 希望对朋友们有所帮助 下载rpmbuild程序包 所用系统 centos7 6 yum install rpm build 安装程序包 如果你所要打包的程序需要
  • yum清缓存_YUM 安装及清理

    Yum 全称为 Yellow dog Updater Modified 是一个在Fedora中的Shell前端软件包管理器 基於RPM包管理 能够从指定的服务器自动下载RPM包并且安装 可以自动处理 依赖性关系 并且一次安装所有依赖的软体包
  • 小程序无需编程,体验IoT物联网平台-物模型开发——设备接入类

    微信小程序码 1 准备工作 1 1 注册阿里云账号 浏览器打开 https aliyun com 开通阿里云账号 并通过支付宝实名认证 https www aliyun com gt 1 2 免费开通IoT物联网平台 在产品分类 找到物联网
  • c语言-循环打印星号图形*

    用两层循环 外层循环 控制行 行数 换行 内层循环 控制列 列数 列的符号 第一种效果图 为什么是j lt i 2呢 第一行以0计算 第一行星数为0 第二行为1计算 第二行星数为2 include
  • 【DP练习】美元DOLLARS

    1040 练习题目 美元DOLLARS Description 在以后的若干天里戴维将学习美元与德国马克的汇率 编写程序帮助戴维何时应买或卖马克或美元 使他从100美元开始 最后能获得最高可能的价值 Input 输入文件的第一行是一个自然数
  • Linux TOP CPU %wa 值的理解

    起因 近期阅读到Linux下显示CPU执行情况命令top的使用 网上搜索显示为 单位时间io占用cpu比例 cpu等待输入输出 cpu等待io的时间 起初看来 总觉得是io瓶颈或者是cpu负载率 仔细琢磨 总觉得哪里出了问题 跟进 因为IO
  • 深度优先遍历目录

    磁盘文件系统类型 ext2 ext3 ext4 深度优先遍历目录 include
  • Qt中.pro文件报错问题

    1 error No rule to make target C Program Files x86 Windows Kits 10 Lib 10 0 22621 0 um x64 User32d a needed by debug unt
  • Matlab中特征选择reliefF算法使用方法(分类与回归)

    1 ReliefF简介 ReliefF是特征选择的一种算法 在高维特征样本中 选取部分具有代表性的特征 从而降低样本特征维度 它也是relief算法的进阶 Relief算法只能用来做二分类 但其算法简单 效率高 结果不错 因此才有了其进阶算
  • 超详细!基于Proteus的出租车计价器实现(数字电路课程设计)

    本文阐述基于Proteus 7 8的出租车计价器电路的实现 附具体电路的工程文件下载 工程文件下载链接 设计要求 里程测量精确到1 按起步价7元 3公里 起步价外按1 4元 公里进行计价 等候按1 4元 10分钟计算 具有里程显示 收费显示
  • 浏览器全屏代码

    a href 屏幕切换 a
  • 常用分类算法的优缺点和相关评价指标

    算法 优点 缺点 Bayes 贝叶斯分类法 1 所需估计的参数少 对于缺失数据不敏感 2 有着坚实的数学基础 以及稳定的分类效率 1 假设属性之间相互独立 这往往并不成立 喜欢吃番茄 鸡蛋 却不喜欢吃番茄炒蛋 2 需要知道先验概率 3 分类