实战07- 模型融合:利用AdaBoost元算法提高分类性能

2023-11-16

元算法(meta-algorithm)是对其他算法进行组合的一种方式,即模型融合。

模型融合主要分为三种:BaggingBoosting和Stacking。
思想:将弱分类器融合成强分类器,融合后比最强的弱分类器更好。
视频导学:https://www.bilibili.com/video/BV1y4411g7ia?p=8
参考:

单层决策树(decision stump)分类器 -> 运用Adaboost -》 处理非均衡分类问题。

7.1 基于数据集多重抽样的分类器

多种分类器的组合成为集成方法(ensemble method)或者元算法(meta-algorithm)。集成方式包括:不同算法集成、同一算法不同设置的集成、数据集不同部分分配给不同的分类器的集成。

bagging:基于数据随机重抽样的分类器构建方法
· 自举汇聚法(bootstrap aggregating),也称为bagging方法。
· 各分类器权重相同
· 并行预测
· 有放回抽取得到S个数据集
· 代表方法:随机森林(random forest)

boosting: 关注被已有分类器错分的数据来获得新的分类器。
· 基于所有分类器 结果的加权求和
· 各分类器权重不相同
· 串行顺序预测
· 同一数据集
· 分类器的权重对应于上一轮迭代中的成功度
· 代表方法:AdaBoost, GBDT, XGBoost.

7.2 训练算法:基于错误提升分类器的性能

AdaBoost为例

即 adaptive boosting,自适应boosting。
训练数据中的每个样本,赋予了一个权重,这些权重构成了向量 D D D;
为了从所有弱分类器中得到最终的分类结果,AdaBoost为每个分类器分配了一个权重值 α \alpha α, 这些 α \alpha α值基于每个弱分类器的错误率。

  1. 在每一轮如何改变训练数据的权值或者概率分布?
    提高错分样本的权值,减少分对样本的权值。( D D D)

  2. 通过什么方式组合弱分类器?
    通过加法模型将弱分类器进行线性组合,比如adaboost通过加权多数表决的方式,即增大错误率小的分类器的权值,同时减小错误率较大的分类器权值。( α \alpha α)
    分类正确的样本,权重更改为: D i t + 1 = D i ( t ) e − α S u m ( D ) D_i^{t+1} = \frac{D_i^{(t)} e^{-\alpha}}{Sum(D)} Dit+1=Sum(D)Di(t)eα
    分类错误的样本,权重更改为: D i t + 1 = D i ( t ) e α S u m ( D ) D_i^{t+1} = \frac{D_i^{(t)} e^{\alpha}}{Sum(D)} Dit+1=Sum(D)Di(t)eα
    可统一为: D i t + 1 = D i ( t ) e − α y t h t S u m ( D ) D_i^{t+1} = \frac{D_i^{(t)} e^{-\alpha y_t h_t}}{Sum(D)} Dit+1=Sum(D)Di(t)eαytht, 预测结果 h t h_t ht是 +1 或 -1。

7.3 基于单层决策树构建弱分类器

单层决策树(decision stump,也称为决策树桩),仅基于单个特征来做决策,属于base algorithm。
三层循环:

  1. 针对每个特征,如x轴特征,y轴特征,每一列都是一种特征。
  2. 针对每个阈值 (步长),(rangeMax - rangeMin)/ numSteps
  3. 针对阈值下的每种情况,即不等式’lt’或者’gt’.

数组过滤: 通过比较predictedVals == labelMat两者是否相等,来赋0值。这里是想把预测错误的位置置为1, 正确置为0。 如此一来, 在后续统计总的error的时候可以直接用weightedError =D.T* errArr 或者更后面用matrix.sum()。最终得到字典、错误率、类别估计值。

7.4 完整AdaBoost算法的实现

基于单层决策树的训练过程,见P122.

numIt 指定迭代次数,这里相当于想要得到多少个相同类型的弱分类器。
m个样本,初始化每个样本的权重为 1/m
np.multiply(x,y)是对应位置相乘,这里 shape(x) == shape(y)
sign() 是符号函数。
观察输出可以看到,在D中,错误的样本权重会增大。

7.5 测试算法:基于AdaBoost的分类

输出类别的估计值乘上该单层决策树的 α \alpha α权重然后累加到aggClassEst上,作为最终结果。

7.6 示例:在一个难数据集上应用AdaBoost

检查数据, 确保标签是+1和-1
数据集默认最后一列是类别标签
是否过拟合?

7.7 非均衡分类问题

混淆矩阵(confusion matrix),不同类别的分类代价并不相等。
错误率: 指在所有测试样例中错分的样例比例。
正确率、召回率
ROC曲线与AUC
基于matplotlib绘图<1.0, 1.0>到<0, 0>

准确率accuracy 和 精确率 precision的区别
在这里插入图片描述

  1. 基于代价函数的分类器决策控制
  2. 欠抽样和过抽样——两种处理非均衡问题的数据抽样方法
    过采样的方法,如SOMTE和ADASYN算法,通常比欠采样效果好。

分类结果是标称值,回归结果是连续值。

下一篇: 利用回归预测数值型数据。

本文内容由网友自发贡献,版权归原作者所有,本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容,请联系:hwhale#tublm.com(使用前将#替换为@)

实战07- 模型融合:利用AdaBoost元算法提高分类性能 的相关文章

随机推荐

  • 矩阵树定理

    启蒙 http zhengruioi com contest 1416 T1 T2的10分暴力 后面是论文科技 不搞了 https www luogu com cn problem P6178 O n 3
  • 你不知道的javascript之函数作用域和块作用域(一)

    立即执行函数表达式 IIFE 1 使用匿名函数表达式 var a 2 function IIFE var a 3 console log a 3 console log a 2 2 当作函数调用并传递参数进去 var a 2 functio
  • 机器学习总结

    目录 一 连续特征的离散化 在什么情况下将连续的特征离散化之后可以获得更好的效果 二 LabelEncoder和OneHotEncoder 在特征工程中的应用 三 神经网络 深度学习 四 反向传播与梯度下降 五 聚类算法 六 机器学习 样本
  • python+Opencv数字图像处理入门到精通

    1 环境配置 在python 3 4 2 之后 一些算法被申请了专利 可能不能在使用 因此 建议使用的版本为 3 4 1 15或3 4 0 15 在Anaconda下安装opencv需要执行如下两个指令 pip install opencv
  • "免费!中文!10个最佳Python学习网站推荐

    分享资料 一起学习 我是小白 微信 tlxx233 备注 888建了个微信程序员学习群 互相解答问题 有需要的同学可以加我微信进群 10个免费学习 Python 的中文网站 如果你想要学习 Python 那么这篇文章将会介绍 10 个免费的
  • Linux和Windows下使用Syslog库

    本文档描述如何在Windows和Linux下使用Syslog库 在Linux下GNU库中已经自带有syslog库 但是在Windows下的标准库中没有syslog库 从网上可以找到syslog的开源代码实现 接口函数基本上与Linux一致
  • 高精度运算c++

    高精度运算c 前言 加法 减法 乘法 除法 求余 全部代码 完 前言 采用c 的stl库实现高精度的加减乘除 以及求余运算 希望可以帮助到大家 加法 string add big string a string b string 加 str
  • String和基本数据类型的比较方式

    package com test author xlj 简单的比较方式 public class Test public static void main String args System out println 192 168 101
  • springboot项目启动时:Failed to retrieve application JMX service URL

    application properties配置有问题 检查即可
  • Cannot find any provider supporting AES/CBC/PKCS5Padding

    1 出现的问题 java lang RuntimeException java security NoSuchAlgorithmException Cannot find any provider supporting AES CBC PK
  • Elastic Search 安装部署最全教程(Docker)

    一 部署单点ES 1 首先创建网络 因为我们还需要部署kibana容器 因此需要让es和kibana容器互联 这里先创建一个网络 docker network create es net 2 加载镜像 docker pull elastic
  • 刀片服务器 如何增加硬盘,IBM为刀片服务器添加新SAS及固态硬盘

    在调整过X64产品线后 我们又收到IBM将为服务器产品线添加新SAS硬盘及固态硬盘的消息 上周IBM刚发布了一款小尺寸的SAS硬盘 它只有2 5英寸 而之前的硬盘基本上都是3 5英寸的SCSI硬盘 因为IBM拥有世界上最好的硬盘研究和生产工
  • 疯壳4900、7072心率血压血氧心电四合一智能手表&模组电容触摸实现

    触摸 该手表的触摸是由RH6015C触摸IC完成的 该IC是一款内置稳压模块的单通道电容式触摸感应控制开关 IC 可以替代传统的机械式开关 RH6015可在有介质 如玻璃 亚克力 塑料 陶瓷等 隔离保护的情况下实现触摸功能 安全性高 RH6
  • delete 和 delete []的真正区别

    c 中对new申请的内存的释放方式有delete和delete 两种方式 到底这两者有什么区别呢 1 我们通常从教科书上看到这样的说明 delete 释放new分配的单个对象指针指向的内存 delete 释放new分配的对象数组指针指向的内
  • ubuntu下解决wps2019缺少字体问题

    准备字体包 链接 https pan baidu com s 1rsqn3CY SWS KWaKc0w83g 提取码 h9cs 复制 解压后的wps symbol fonts zip到 home usr share fonts下 sudo
  • 西门子PLC—用 SCL 编写你的第一个 TIA 代码

    前言 使用梯形图编写程序时 博途编辑器是通过网络段 把程序分成一段一段的 编辑器可以插入若干个网络段 每一个网络段可以有各自的注释 而SCL是文本语言 不分网络段 在LAD FBD语言内增加SCL的除外 这就需要需要用其他的方法来 解决程序
  • 面试总结大全

    预定义变量 0 脚本名 所有的参数 所有的参数 参数的个数 当前进程的PID 上一个后台进程的PID 上一个命令的返回值 0表示成功 for 循环次数是固定的 for i in 取值 范围 1 20 zhangsan lisi wanger
  • 牛客网——华为题库(41~50)

    华为题库 41 称砝码 42 学英语 43 迷宫问题 44 Sudoku 45 名字的漂亮度 46 截取字符串 48 从单向链表中删除指定值的节点 50 四则运算 41 称砝码 include
  • C++通过回车结束循环输入

    试想一个案例 假设需要你输入n行数字 而每一行输入的数字数量都未知 不定 如何通过C 来实现这一操作 本贴笔者给出一个具体案例 首先规定输入的行数 而后在每一行输入不定量的数字 最后将每一个数字对应的值 以及与其匹配的行数输出 例如 输入
  • 实战07- 模型融合:利用AdaBoost元算法提高分类性能

    元算法 meta algorithm 是对其他算法进行组合的一种方式 即模型融合 模型融合主要分为三种 Bagging Boosting和Stacking 思想 将弱分类器融合成强分类器 融合后比最强的弱分类器更好 视频导学 https w