数据分析学习之：如何均衡样本——使用 imblearn 库实现重采样（resampling），过采样(over-sampling) + 欠采样(under-sampling))

2023-05-16

文章目录

什么是样本不平衡
如何平衡数据集的样本——重采样
- 欠采样（也叫 undersampling）
- - 将大的样本集的数据全部筛选出来
  - 通过随机采样操作采样固定个数的样本留下
  - 和少样本的样本集拼合成最终的样本集
  - 样本均衡了
- 过采样（over-sampling）
- - 通过 imblearn 库扩充小的样本集
  - 样本均衡了

什么是样本不平衡

import pandas as pd
import numpy as np
import seaborn as sns


values = {"姓名":["A","B","C","D","E","F","G","H","I","J","K","L","G","H","I","J","K","L"],
         "年龄":[55,70,80,90,60,30,67,44,60,30,67,44,30,67,30,67,30,67],
          "头发颜色":["白","白","白","白","白","黑","白","黑","白","白","黑","白","白","黑","白","白","黑","黑"]}
table = pd.DataFrame(values)

table

	姓名	年龄	头发颜色
0	A	55	白
1	B	70	白
2	C	80	白
3	D	90	白
4	E	60	白
5	F	30	黑
6	G	67	白
7	H	44	黑
8	I	60	白
9	J	30	白
10	K	67	黑
11	L	44	白
12	G	30	白
13	H	67	黑
14	I	30	白
15	J	67	白
16	K	30	黑
17	L	67	黑

table["头发颜色"] = pd.Categorical(table["头发颜色"]).codes

table

	姓名	年龄	头发颜色
0	A	55	0
1	B	70	0
2	C	80	0
3	D	90	0
4	E	60	0
5	F	30	1
6	G	67	0
7	H	44	1
8	I	60	0
9	J	30	0
10	K	67	1
11	L	44	0
12	G	30	0
13	H	67	1
14	I	30	0
15	J	67	0
16	K	30	1
17	L	67	1

从下面的统计图中可以看出，以头发颜色作为 label 进行分类的时候，样本是不均衡的
因为 12个白头发，但是有 6 个黑头发

table["头发颜色"].plot(x=[0,1],kind="hist")

在这里插入图片描述

如何平衡数据集的样本——重采样

我们的最终目标是保证数据集中各个 label 下的样本数量是几乎完全相等的
要么我们就需要把样本多的组的样本按照随机的原则砍掉一部分来平衡，要么就把少样本的一组进行扩充

欠采样（也叫 undersampling）

顾名思义，削减大的样本集

将大的样本集的数据全部筛选出来

df_white = table.loc[table["头发颜色"] == 0]  #选出头发为白色的人
df_black = table.loc[table["头发颜色"] == 1] #选出头发为黑色的人

df_white

	姓名	年龄
0	A	55
1	B	70
2	C	80
3	D	90
4	E	60
6	G	67
8	I	60
9	J	30
11	L	44
12	G	30
14	I	30
15	J	67

df_black

	姓名	年龄	头发颜色
5	F	30	1
7	H	44	1
10	K	67	1
13	H	67	1
16	K	30	1
17	L	67	1

通过随机采样操作采样固定个数的样本留下

df_white = df_white.sample(n=6,random_state=30)

df_white

	姓名	年龄
0	A	55
8	I	60
12	G	30
11	L	44
1	B	70
3	D	90

和少样本的样本集拼合成最终的样本集

table_undersampling = pd.concat([df_black,df_white],axis=0,ignore_index=True)

table_undersampling

	姓名	年龄	头发颜色
0	F	30	1
1	H	44	1
2	K	67	1
3	H	67	1
4	K	30	1
5	L	67	1
6	A	55	0
7	I	60	0
8	G	30	0
9	L	44	0
10	B	70	0
11	D	90	0

样本均衡了

table_undersampling["头发颜色"].plot(kind="hist")

在这里插入图片描述

过采样（over-sampling）

通过 imblearn 库扩充小的样本集

from imblearn.over_sampling import SMOTE

# Resample the minority class. You can change the strategy to 'auto' if you are not sure.

# 如果这里选 minority 只能保证两个 class 样本均衡
# 但是使用 auto 可以保证多个类样本均衡
sm = SMOTE(sampling_strategy='auto', random_state=7)


# Fit the model to generate the data.

oversampled_data,oversampled_label=sm.fit_resample(table.drop(['姓名','头发颜色'], axis=1), table['头发颜色'])
oversampled_table =pd.concat([oversampled_data, oversampled_label], axis=1)

样本均衡了

oversampled_table["头发颜色"].plot(kind="hist")

在这里插入图片描述

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)

数据分析学习之：如何均衡样本——使用 imblearn 库实现重采样（resampling），过采样(over-sampling) + 欠采样(under-sampling)) 的相关文章

Windows 配置 C/C++ 开发环境

文章目录 1 安装 MinGW w641 1 下载1 2 解压到合适的目录下1 3 添加到环境变量1 4 测试是否安装成功 2 安装 CMake2 1 下载2 2 解压到合适的目录下2 3 添加到环境变量2 4 测试是否安装成功 3 编译运
I.MX6ULL的SPI通信

简述 SPI是串行外设接口 xff08 Serial Peripheral Interface xff09 的缩写 xff0c 相比于I2C最高400bps的传输速度 xff0c SPI每秒可以传输的数据可以高达几十M甚至上百Mbit 1
信号量与互斥量的区别

信号量 xff1a 那是多线程同步用的 xff0c 一个线程完成了某一个动作就通过信号告诉别的线程 xff0c 别的线程再进行某些动作互斥量 xff1a 这是多线程互斥用的 xff0c 比如说 xff0c 一个线程占用了某一个资源 xff
C语言常用转义字符表

C语言常用转义字符表转义字符 xff1a 转义字符分为一般转义字符八进制转义字符十六进制转义字符一般转义字符 xff1a 背诵 0 n 八进制转义字符 xff1a 141 是合法的 xff0c 前导的0是不能写的十六进制转义字符
2018年App测试流程及要点梳理

先说说 xff0c 为什么要给大家梳理App测试流程和要点呢 xff1f 主要是缘于有太多同学咨询相关App测试的问题 xff0c 回答的次数多了 xff0c 就不想打字了 xff0c 还不如这样全部帮你们整理好 xff0c 希望各位看到的
毕业设计--球上自平衡机器人

目录前言一机器人原理分析二控制器设计三程序部分四硬件清单五电路设计六结构设计七总结与展望总结展望 2021 8 18更新 xff1a 看到评论区很多人对这个机器人比较感兴趣 xff0c 把之前挖好的坑填一下
ROS入门之CmakeList.txt详讲

本文为进来学习的总结 xff0c 记录了学习CmakeList txt文档的各个步骤 xff0c 适合从零开始理解CmakeList txt xff0c 可能存在错误之处 xff0c 望批评指正 0 Cmake的起源为什么有CmakeLi
2 如何给Gazebo中的仿真机械臂添加一个力传感器？

1 你得有一个仿真机械臂简单地说你首先的拥有一个能够在Gazebo当中使用的机械臂的URDF文件 xff0c 必须要包含visual collision和inertial三大标签出于个人习惯 xff0c 这里直接使用UR官方提供的UR5
C#学习之事件的本质

在注册事件时 xff0c 使用EventHandler委托 xff1b 摘要表示将用于处理不具有事件数据的事件的方法参数 sender 事件源 e 不包含事件数据的对象 public delegate void EventHandler
..\OBJ\USART.axf: Error: L6218E: Undefined symbol I2C_CheckEvent (referred from oled_i2c.o).

OBJ USART axf Error L6218E Undefined symbol I2C CheckEvent referred from oled i2c o OBJ USART axf Error L6218E Undefined
React 应用中的异步数据请求----fetch,以及fetch的优缺点

React 应用中的异步数据请求 fetch 与Vue js一样 xff0c React官方也没有提供服务器端接口异步请求方案 xff1b 可以使用第三方的axios模块 xff0c 或者H5新增的原生技术 xff1a fetch 抓取有
hmdb51数据集,视频+标签

目录视频下载链接标签下载 hmdb介绍其它用于行为识别还需帧标注 xff08 rawframe annotation xff09 视频标注 xff08 video annotation xff09 目录视频下载链接标签下载 h
vscode 连接服务器（Ubuntu系统），安装anaconda上运行深度学习代码

目录 VSCODE的官网 Visual Studio Code Code Editing Redefined 1 安装 Romote SSH 2 添加服务器 3 进入服务器 4进入服务器文件 5 在Ubuntu上安装anconda xff0
nohub 和 & 在linux上不间断后台运行程序

1 nohub xff08 没安装的要先安装 xff09 用途 xff1a 不挂断地运行命令语法 xff1a nohup Command Arg amp 无论是否将 nohup 命令的输出重定向到终端 xff0c 输出都将附加到当前目录的
《30天自制操作系统》：值得推荐的一本好书

自己编写一个操作系统 xff0c 是许多程序员的梦想也许有人曾经挑战过 xff0c 但因为太难而放弃了其实你错了 xff0c 你的失败并不是因为编写操作系统太难 xff0c 而是因为没有人告诉你那其实是一件很简单的事那么 xff0c
NTU RGB+D 120 划分训练集和测试集，生成标签文件。

NTU RGB 43 D 120 总共有120类和114 480个样本大小约为262G 包括 RGB视频分辨率为1920x1080 xff0c 深度图和IR xff08 红外 xff09 视频的分辨率均为512x424 xff0c 3D骨
7z.001压缩包解压方法。（Window+Linux)

之前遇到过的问题 xff1a Open ERROR Can not open the file as 7z archive 解决 xff1a 1 分卷文件需合并成一个7z压缩文件 1 1 如下所示是一个7z 结尾的文件 xff0c 对它的解
Linux 服务器上传下载文件到阿里网盘

1 查看Linux系统架构 dpkg print architecture 2 下载安装 xff08 根据系统版本安装 xff09 2 1下载地址 https github com tickstep aliyunpan releases 2
CondaEnvException: Pip failed 或 Could not find a version that satisfies the requirement 问题

1 错误实例 xff08 Could not find a version that satisfies the requirement imageio 61 61 2 27 0 xff09 2 解决方法 2 1 若对imageio的版本要
Linux中系统盘空间不足和显存没有释放问题

1 系统盘空间不足以下两个是可以直接删除 xff0c 不影响系统运行的目录 xff0c 所以首先直接删除 du sh root miniconda3 pkgs amp amp rm rf root miniconda3 pkgs cond

随机推荐

Ubuntu KCF 代码运行

最近刚接触kcf xff0c 在Ubuntu上运行代码 xff0c 碰到一些问题 xff0c 借鉴了网上其他人的方法 xff0c 简单记录一下过程 KCF代码下载 KCF的代码可以去作者的网站去下载 xff1a http www robot
PADS学习笔记之绪论

学习目的在学校里的时候使用一直都是AD xff0c 现在即将毕业了 xff0c 来公司实习之后发现基本不用AD xff08 可能是怕收到律师函 xff09 xff0c 公司主要用的是PADS xff0c 某些项目也会用到cadence 虽
软件工程中的框架

什么是框架框架 Framework 是构成一类特定软件可复用设计的一组相互协作的类框架规定了你的应用的体系结构它定义了整体结构 xff0c 类和对象的分割 xff0c 各部分的主要责任 xff0c 类和对象怎么协作 xff0c 以及控
Python argparse模块详解

argparse是python用于解析命令行参数和选项的标准模块 xff0c 用于代替已经过时的optparse模块官方文档中讲到的 xff0c 本文基本都提到了 xff0c 但只是简要记录 xff0c 如果需要深入理解 xff0c 可查
Linux下实现C语言的http请求实现

该文件为转载文章 xff0c 作为学习和个人笔记使用 xff08 原文地址 xff09 https blog csdn net songfeihu0810232 article details 54892149 前言 Linux下的http
float a=1.0f在内存中的表示

http zhidao baidu com question 314282772 html 3f800000H 61 0 01111111 00000000000000000000000B xff08 注意我分成了三段 xff09 符点型数
图片返回状态码403

在public index html 头部加一行代码在这里插入图片描述 https img blog csdnimg cn 20200323202225328 png x oss process 61 image watermark ty
ROS学习笔记_01：工作空间及功能包

1 ROS安装 xff1a 每个ROS版本对应一个Ubuntu版本 UBUNTUROSEnd of time14 04 LTSindigo IglooApril xff0c 201916 04 LTSKinetic KameApril xf
ROS学习笔记_02: Topic 和 msg

1 ROS通信方式 ROS有四种通信方式 xff1a Topic 主题Service 服务Parameter Service 参数服务器Actionlib 动作库其中 xff0c topic是最常用的一种 2 Topic Topic xf
Ubuntu20 + KVM虚拟机

1 命令汇总 span class token comment 查看一下linux是32位还是64位 xff1a span span class token function file span bin ls span class toke
基于PX4、树莓派和Mocap(Optitrack)的室内飞行环境搭建

基于PX4 树莓派和Mocap Optitrack的室内飞行环境搭建前言系统结构和原理软硬件要求Mocap环境设置主机 gt 工作站设置wifiMotive设置 Mocap gt Pixhawk硬件要求 xff1a 软件要求 xff1a
STL map的基本用法

begin 返回指向map头部的迭代器 clear 删除所有元素 count 返回指定元素出现的次数 empty 如果map为空则返回true end 返回指向map末尾的迭代器 equal range 返回特殊条目的迭代器对 erase
自己动手写操作系统（高清图书+源代码）分享

很喜欢自己动手写操作系统这本书 xff0c 但现在这本书已经绝版了在这里分享一下这本书的高清电子版和源代码 xff0c 感兴趣的人可以下载一下链接 xff1a https pan baidu com s 1lPXg Airu2NFj
四旋翼飞行器控制pid学习笔记

PID控制学习笔记凡事必躬亲 xff0c 身体而力行 xff0c 化理论为实践 xff0c 方得始终研究PID xff0c 首先应当把PID拆解开来 xff0c 便是P xff08 比例控制 xff09 I xff08 积分控制 xff
Ubuntu使用终端命令安装谷歌Chrome浏览器

sudo wget http www linuxidc com files repo google chrome list P etc apt sources list d wget q O https dl google com linu
为什么C/C++很多内部函数由下划线开头？关于VS中的CRT_SECURE

以下摘自compatibility 兼容性通用 C运行时库 UCRT 支持实现 C 43 43 一致性所需的大多数 C 标准库它实现 C99 xff08 ISO IEC 9899 1999 xff09 库 xff0c 但有一些例外情况
实现快速全自动Ubuntu批量安装的步骤

随着使用ubuntu系统的用户越来越多 xff0c 对于一台PC机安装ubuntu系统来说并不是难事 xff0c 但是如果对于企业里新增的几十台几十台服务器 xff0c 一台一台安装 xff0c 实在是太累 xff0c 通过以下方法 xff
ESP32基础应用之FreeRTOS使用

文章目录前言1 FreeRTOS 任务的使用1 1 任务状态1 2 任务优先级1 3 创建任务 2 FreeRTOS 事件标志组的使用参考资料 xff1a STM32F103 FreeRTOS开发手册V1 1 pdf 前言 1 Free
STM32CubeMX之FreeRTOS

文章目录 1 STM32CubeMX参数配置及其说明1 1 FreeRTOS Mode1 2 Config parameters1 2 1 Kernel setting1 2 2 Memory management setting1 2 3
数据分析学习之：如何均衡样本——使用 imblearn 库实现重采样（resampling），过采样(over-sampling) + 欠采样(under-sampling))

文章目录什么是样本不平衡如何平衡数据集的样本重采样欠采样 xff08 也叫 undersampling xff09 将大的样本集的数据全部筛选出来通过随机采样操作采样固定个数的样本留下和少样本的样本集拼合成最终的样本集样本均衡了过采样

	姓名	年龄	头发颜色
0	A	55	白
1	B	70	白
2	C	80	白
3	D	90	白
4	E	60	白
5	F	30	黑
6	G	67	白
7	H	44	黑
8	I	60	白
9	J	30	白
10	K	67	黑
11	L	44	白
12	G	30	白
13	H	67	黑
14	I	30	白
15	J	67	白
16	K	30	黑
17	L	67	黑

	姓名	年龄	头发颜色
0	A	55	0
1	B	70	0
2	C	80	0
3	D	90	0
4	E	60	0
5	F	30	1
6	G	67	0
7	H	44	1
8	I	60	0
9	J	30	0
10	K	67	1
11	L	44	0
12	G	30	0
13	H	67	1
14	I	30	0
15	J	67	0
16	K	30	1
17	L	67	1

	姓名	年龄
0	A	55
1	B	70
2	C	80
3	D	90
4	E	60
6	G	67
8	I	60
9	J	30
11	L	44
12	G	30
14	I	30
15	J	67

	姓名	年龄	头发颜色
0	F	30	1
1	H	44	1
2	K	67	1
3	H	67	1
4	K	30	1
5	L	67	1
6	A	55	0
7	I	60	0
8	G	30	0
9	L	44	0
10	B	70	0
11	D	90	0

	姓名	年龄	头发颜色
0	A	55	白
1	B	70	白
2	C	80	白
3	D	90	白
4	E	60	白
5	F	30	黑
6	G	67	白
7	H	44	黑
8	I	60	白
9	J	30	白
10	K	67	黑
11	L	44	白
12	G	30	白
13	H	67	黑
14	I	30	白
15	J	67	白
16	K	30	黑
17	L	67	黑

	姓名	年龄	头发颜色
0	A	55	0
1	B	70	0
2	C	80	0
3	D	90	0
4	E	60	0
5	F	30	1
6	G	67	0
7	H	44	1
8	I	60	0
9	J	30	0
10	K	67	1
11	L	44	0
12	G	30	0
13	H	67	1
14	I	30	0
15	J	67	0
16	K	30	1
17	L	67	1

	姓名	年龄
0	A	55
1	B	70
2	C	80
3	D	90
4	E	60
6	G	67
8	I	60
9	J	30
11	L	44
12	G	30
14	I	30
15	J	67

	姓名	年龄	头发颜色
0	F	30	1
1	H	44	1
2	K	67	1
3	H	67	1
4	K	30	1
5	L	67	1
6	A	55	0
7	I	60	0
8	G	30	0
9	L	44	0
10	B	70	0
11	D	90	0

数据分析学习之：如何均衡样本——使用 imblearn 库实现重采样（resampling），过采样(over-sampling) + 欠采样(under-sampling))

文章目录

什么是样本不平衡

如何平衡数据集的样本——重采样

欠采样（也叫 undersampling）

将大的样本集的数据全部筛选出来

通过随机采样操作采样固定个数的样本留下

和少样本的样本集拼合成最终的样本集

样本均衡了

过采样（over-sampling）

通过 imblearn 库扩充小的样本集

样本均衡了

数据分析学习之：如何均衡样本——使用 imblearn 库实现重采样（resampling），过采样(over-sampling) + 欠采样(under-sampling)) 的相关文章

随机推荐

热门标签

	姓名	年龄	头发颜色
0	A	55	白
1	B	70	白
2	C	80	白
3	D	90	白
4	E	60	白
5	F	30	黑
6	G	67	白
7	H	44	黑
8	I	60	白
9	J	30	白
10	K	67	黑
11	L	44	白
12	G	30	白
13	H	67	黑
14	I	30	白
15	J	67	白
16	K	30	黑
17	L	67	黑

	姓名	年龄	头发颜色
0	A	55	0
1	B	70	0
2	C	80	0
3	D	90	0
4	E	60	0
5	F	30	1
6	G	67	0
7	H	44	1
8	I	60	0
9	J	30	0
10	K	67	1
11	L	44	0
12	G	30	0
13	H	67	1
14	I	30	0
15	J	67	0
16	K	30	1
17	L	67	1

	姓名	年龄
0	A	55
1	B	70
2	C	80
3	D	90
4	E	60
6	G	67
8	I	60
9	J	30
11	L	44
12	G	30
14	I	30
15	J	67

	姓名	年龄	头发颜色
0	F	30	1
1	H	44	1
2	K	67	1
3	H	67	1
4	K	30	1
5	L	67	1
6	A	55	0
7	I	60	0
8	G	30	0
9	L	44	0
10	B	70	0
11	D	90	0