《机器学习西瓜书》学习笔记——第三章_线性模型_类别不平衡问题

2023-10-30

类别不平衡是指分类任务中不同类别的训练样例数目相差很大

现有技术大体上有三类做法解决此问题：
1. 欠采样
2. 过采样
3. 阈值移动/再缩放

1. 欠采样

直接对训练集里的反类样例进行欠采样，即去除一些反例使得正反例数目接近，然后再进行学习。欠采样若随机丢弃反例，可能会丢失重要信息。代表性算法：EasyEmsemble，利用集成学习机制，将反例划分为若干个集合，供不同学习器使用，这样对每个学习器来看都进行了欠采样，但全局来看不会丢失重要信息。

2. 过采样

对训练集里的正类样例进行过采样，即增加一些正例，使得正反例数目接近，然后再进行学习。但不能简单对初始正例样本重复采样，否则过拟合严重。代表性算法SMOTE，通过对训练集的正例进行插值，产生额外的正例。

3. 阈值移动

基于原始训练集进行学习，但在用训练好的分类器进行预测时，将 y′1−y′ y ′ 1 − y ′ = y1−y y 1 − y * m+m− m + m − 再缩放考虑入决策过程。

几率 y1−y y 1 − y 反应正例可能性和反例可能性之比值，阈值设置为0.5表明分类器任务正反例可能性相同，即分类器决策为:

若 y1−y y 1 − y >1则为正例, y1−y y 1 − y 为预测几率.

当训练集中正反例的数目不同时，令 m+ m + 表示正例数目， m− m − 表示反例数目，观测几率为 m+m− m + m − ,通常假设训练集是真是样本总体的无偏采样，因此观测几率代表真是几率，所以只要预测几率大于观测几率就应判断为正例。即：

y1−y y 1 − y > m+m− m + m − 则预测为正例

但是，我们的分类器是基于 y1−y y 1 − y >1进行决策的，因此对其预测值进行调整，使其基于 y1−y y 1 − y >1决策时实际在执行 y1−y y 1 − y > m+m− m + m − ，所以，需要令：

y′1−y′ y ′ 1 − y ′ = y1−y y 1 − y * m+m− m + m −

这就是类别不平衡学习的基本策略——再缩放

再缩放/再平衡虽然简单，但实际操作并不平凡。因为训练集是真实样本总体的无偏采样的假设，一般并不成立。未必可有效基于训练集观测几率来估计真实几率。

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)

机器学习

机器学习西瓜书读书笔记

《机器学习西瓜书》学习笔记——第三章_线性模型_类别不平衡问题的相关文章

Element-ui 表单的基础使用

1 基本三大组件
4-6 三部排序Java

快排变体极限思维全部为0 必为p 一般的排序有许多经典算法如快速排序希尔排序等但实际应用时经常会或多或少有一些特殊的要求我们没必要套用那些经典算法可以根据实际情况建立更好的解法比如对一个整型数组中的数字进行分类排序使得
了解CommonJS模块化规范

1 概述 Node应用由模块组成采用CommonJS模块规范每个文件就是一个模块有自己的作用域在一个文件里面定义的变量函数类都是私有的对其他文件不可见 example js var x 5 var addX function

随机推荐

解决 ERROR: Could not find a version that satisfies the requirement torch==1.10.0+cu102

前提笔者的问题不是网络问题 python版本 3 10 本机CUDA版本 10 2 OS Windows10 问题下载torch时报错 pip install torch 1 10 0 cu102 torchvision 0 11 0
过早扩张、未经检验的技术，创业公司最易跳入哪些致命陷阱？

对早期的软件初创公司请注意避免这些工程错误 n 2016 年我为一个初次创业者提供了技术咨询帮助他建立一个种子基金资助的食品配送市场在我看来他这家公司做出的每一项技术选择都是错误的 n CEO 信奉将权利赋予工程师的理念然后
时序预测的七种方法-python3

时序预测的七种方法目录数据读取和处理安装库方法 1 以简单的方式开始方法2 简单平均数方法3 移动平均数方法 4 指数平滑法方法5 Holt线性趋势法方法6 Holt冬季季节法方法7 综合自回归移动平均法 ARIMA 理
计算机数值方法之线性方程组的迭代方法C语言

题目使用雅可比迭代法或高斯赛德尔迭代法对下列方程组进行求解高斯赛德尔和雅可比迭代法笔算很好运用写程序两者是互通的 include
IntelliJ IDEA优秀插件

转自1 https www toutiao com a6539875490272903693 转自2 https blog csdn net sujun10 article details 72852939 grep console jav
数组习题三

目录一全排列不含重复数字 1 题目 2思路图解 3 代码二有重复项数字的全排列 1 题目 2 思路图解 3 代码三求最长连续序列要求时间复杂度为O N 1 题目 2 思路图解 3 代码四最长递增子序列 1 题目 2 思路
VMware虚拟机提示找不到vmnetbridge.dll

找了很多文章多半是提示重新安装有的说该文件在C WINDOWS inf目录下然而我的不在该目录下我的方法是先在本机中找找该文件在不在电脑中存在使用工具是Everything 的确是有的找到选择该目录就可以了噢每个人电脑中可能是有
查询IP地址可得到哪些信息

通过IP地址定位可以获取一些基本的信息包括以下内容 1 地理位置你可以确定IP地址所在的地理位置包括国家州或省城市和地理坐标这通常是通过将IP地址与地理位置数据库进行匹配来实现的 2 ISP 互联网服务提供商信息你可以了解
DVWA靶场通关教程

目录 Burt Force 爆破 low medium high impossible Command Injection 命令执行 low medium high impossible CSRF 跨站请求攻击 low medium hig
NUC980开源项目21-开启网络连接

上面是我的微信和QQ群欢迎新朋友的加入项目码云地址国内下载速度快 https gitee com jun626 nuc980 open source project 项目github地址 https github com Jun117
小程序更换navigationBarBackgroundColor导航栏背景色

阐述有些项目并不想让小程序的导航的颜色是纯色的想要更换颜色那么就用到的 navigationBarBackgroundColor 这个参数具体看下以下设置方法设置导航栏颜色有时候我们在单页面设置的 navigationBarBa
数据库连接池原理之(一)：通俗易懂的数据库连接池原理以及实现机制讲解

本篇内容综合广大网友提供内容笔者经过整理对数据库连接池原理和实现过程做个很系统的并且通俗易懂的分析讲解以及手写一个连接池实现过程作为演示一早期通过JDBC方式操作数据库我们先来看早期使用JDBC的方式操作数据库的过程这里以my
迅速响应！国家互联网信息办公室发布关于《生成式人工智能服务管理办法（征求意见稿）》公开征求意见的通知

4月11日为促进生成式人工智能技术健康发展和规范应用国家互联网信息办公室发布生成式人工智能服务管理办法征求意见稿向社会公开征求意见意见稿首先指出国家支持人工智能算法框架等基础技术的自主创新推广应用国际合作鼓励优先采用安
BigDecimal 转字符串，并去掉尾部的0

有一种写法先转成Double BigDecimal target new BigDecimal 5375130 000000 BigDecimal valueOf Double parseDouble target toString to
spark中shuffle运行原理

ShuffleManager里有四个接口 register reader writer和stop 核心接口则是reader和writer 当前版本reader接口只有1个实现 writer接口有3个实现每种实现分别对应不同的场景 writ
LightGBM 重要参数、方法、函数理解及调参思路、网格搜索（附例子）

文章目录一 LightGBM 原生接口重要参数训练参数预测方法绘制特征重要性分类例子回归例子二 LightGBM 的 sklearn 风格接口 LGBMClassifier 基本使用例子 LGBMRegressor 基本使
一个华科研究生导师的肺腑之言（主要适用于理工科）

一个华科研究生导师的肺腑之言主要适用于理工科各位科研同志们看看吧仁者见仁智者见智总归有点用人太多不一一啦 1 作为你们的老师我现在每周工作60小时踏踏实实的60小时阅读实践思考讨论和请教周而复始其实这还不够用
[课程复习] 数据结构之经典题目回顾 (一)选择题、填空题1

作者最近在复习考博乘此机会分享一些计算机科学与技术软件工程等相关专业课程考题一方面分享给考研考博找工作的博友另一方面也是自己今后完成这些课程的复习资料同时也是在线笔记基础知识希望对您有所帮助不喜勿喷文章目录一基础
IntelliJ IDEA使用Alibaba Java Coding Guidelines编码规约扫描插件

代码规范和编码规约扫描插件使用为什么要有代码规范 1 代码规范插件 2 idea插件安装 3 插件使用介绍编码规约扫描使用编码规约扫描结果 4 扫描结果严重级别 Blocker Critical Major 5 阿里巴巴Java开发手
《机器学习西瓜书》学习笔记——第三章_线性模型_类别不平衡问题

类别不平衡是指分类任务中不同类别的训练样例数目相差很大现有技术大体上有三类做法解决此问题 1 欠采样 2 过采样 3 阈值移动再缩放 1 欠采样直接对训练集里的反类样例进行欠采样即去除一些反例使得正反例数目接近然后再进行学习欠采

热门标签