数据分析学习之:如何均衡样本——使用 imblearn 库实现重采样(resampling),过采样(over-sampling) + 欠采样(under-sampling))

2023-05-16

文章目录

  • 什么是样本不平衡
  • 如何平衡数据集的样本——重采样
    • 欠采样(也叫 undersampling)
      • 将大的样本集的数据全部筛选出来
      • 通过随机采样操作采样固定个数的样本留下
      • 和少样本的样本集拼合成最终的样本集
      • 样本均衡了
    • 过采样(over-sampling)
      • 通过 imblearn 库扩充小的样本集
      • 样本均衡了

什么是样本不平衡

import pandas as pd
import numpy as np
import seaborn as sns

values = {"姓名":["A","B","C","D","E","F","G","H","I","J","K","L","G","H","I","J","K","L"],
         "年龄":[55,70,80,90,60,30,67,44,60,30,67,44,30,67,30,67,30,67],
          "头发颜色":["白","白","白","白","白","黑","白","黑","白","白","黑","白","白","黑","白","白","黑","黑"]}
table = pd.DataFrame(values)
table
姓名年龄头发颜色
0A55
1B70
2C80
3D90
4E60
5F30
6G67
7H44
8I60
9J30
10K67
11L44
12G30
13H67
14I30
15J67
16K30
17L67
table["头发颜色"] = pd.Categorical(table["头发颜色"]).codes
table
姓名年龄头发颜色
0A550
1B700
2C800
3D900
4E600
5F301
6G670
7H441
8I600
9J300
10K671
11L440
12G300
13H671
14I300
15J670
16K301
17L671
  • 从下面的统计图中可以看出,以头发颜色作为 label 进行分类的时候,样本是不均衡的
  • 因为 12个白头发,但是有 6 个黑头发
table["头发颜色"].plot(x=[0,1],kind="hist")

在这里插入图片描述

如何平衡数据集的样本——重采样

  • 我们的最终目标是保证数据集中各个 label 下的样本数量是几乎完全相等的
  • 要么我们就需要把样本多的组的样本按照随机的原则砍掉一部分来平衡,要么就把少样本的一组进行扩充

欠采样(也叫 undersampling)

  • 顾名思义,削减大的样本集

将大的样本集的数据全部筛选出来

df_white = table.loc[table["头发颜色"] == 0]  #选出头发为白色的人
df_black = table.loc[table["头发颜色"] == 1] #选出头发为黑色的人
df_white
姓名年龄头发颜色
0A550
1B700
2C800
3D900
4E600
6G670
8I600
9J300
11L440
12G300
14I300
15J670
df_black
姓名年龄头发颜色
5F301
7H441
10K671
13H671
16K301
17L671

通过随机采样操作采样固定个数的样本留下

df_white = df_white.sample(n=6,random_state=30)
df_white
姓名年龄头发颜色
0A550
8I600
12G300
11L440
1B700
3D900

和少样本的样本集拼合成最终的样本集

table_undersampling = pd.concat([df_black,df_white],axis=0,ignore_index=True)
table_undersampling
姓名年龄头发颜色
0F301
1H441
2K671
3H671
4K301
5L671
6A550
7I600
8G300
9L440
10B700
11D900

样本均衡了

table_undersampling["头发颜色"].plot(kind="hist")

在这里插入图片描述

过采样(over-sampling)

通过 imblearn 库扩充小的样本集

from imblearn.over_sampling import SMOTE
# Resample the minority class. You can change the strategy to 'auto' if you are not sure.

# 如果这里选 minority 只能保证两个 class 样本均衡
# 但是使用 auto 可以保证多个类样本均衡
sm = SMOTE(sampling_strategy='auto', random_state=7)


# Fit the model to generate the data.

oversampled_data,oversampled_label=sm.fit_resample(table.drop(['姓名','头发颜色'], axis=1), table['头发颜色'])
oversampled_table =pd.concat([oversampled_data, oversampled_label], axis=1)

样本均衡了

oversampled_table["头发颜色"].plot(kind="hist")

在这里插入图片描述



本文内容由网友自发贡献,版权归原作者所有,本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容,请联系:hwhale#tublm.com(使用前将#替换为@)

数据分析学习之:如何均衡样本——使用 imblearn 库实现重采样(resampling),过采样(over-sampling) + 欠采样(under-sampling)) 的相关文章

  • Windows 配置 C/C++ 开发环境

    文章目录 1 安装 MinGW w641 1 下载1 2 解压到合适的目录下1 3 添加到环境变量1 4 测试是否安装成功 2 安装 CMake2 1 下载2 2 解压到合适的目录下2 3 添加到环境变量2 4 测试是否安装成功 3 编译运
  • I.MX6ULL的SPI通信

    简述 SPI是串行外设接口 xff08 Serial Peripheral Interface xff09 的缩写 xff0c 相比于I2C最高400bps的传输速度 xff0c SPI每秒可以传输的数据可以高达几十M甚至上百Mbit 1
  • 信号量与互斥量的区别

    信号量 xff1a 那是多线程同步用的 xff0c 一个线程完成了某一个动作就通过信号告诉别的线程 xff0c 别的线程再进行某些动作 互斥量 xff1a 这是多线程互斥用的 xff0c 比如说 xff0c 一个线程占用了某一个资源 xff
  • C语言常用转义字符表

    C语言常用转义字符表 转义字符 xff1a 转义字符分为一般转义字符 八进制转义字符 十六进制转义字符 一般转义字符 xff1a 背诵 0 n 八进制转义字符 xff1a 141 是合法的 xff0c 前导的0是不能写的 十六进制转义字符
  • 2018年App测试流程及要点梳理

    先说说 xff0c 为什么要给大家梳理App测试流程和要点呢 xff1f 主要是缘于有太多同学咨询相关App测试的问题 xff0c 回答的次数多了 xff0c 就不想打字了 xff0c 还不如这样全部帮你们整理好 xff0c 希望各位看到的
  • 毕业设计--球上自平衡机器人

    目录 前言 一 机器人原理分析 二 控制器设计 三 程序部分 四 硬件清单 五 电路设计 六 结构设计 七 总结与展望 总结 展望 2021 8 18更新 xff1a 看到评论区很多人对这个机器人比较感兴趣 xff0c 把之前挖好的坑填一下
  • ROS入门之CmakeList.txt详讲

    本文为进来学习的总结 xff0c 记录了学习CmakeList txt文档的各个步骤 xff0c 适合从零开始理解CmakeList txt xff0c 可能存在错误之处 xff0c 望批评指正 0 Cmake的起源 为什么有CmakeLi
  • 2 如何给Gazebo中的仿真机械臂添加一个力传感器?

    1 你得有一个仿真机械臂 简单地说你首先的拥有一个能够在Gazebo当中使用的机械臂的URDF文件 xff0c 必须要包含visual collision和inertial三大标签 出于个人习惯 xff0c 这里直接使用UR官方提供的UR5
  • C#学习之事件的本质

    在注册事件时 xff0c 使用EventHandler委托 xff1b 摘要 表示将用于处理不具有事件数据的事件的方法 参数 sender 事件源 e 不包含事件数据的对象 public delegate void EventHandler
  • ..\OBJ\USART.axf: Error: L6218E: Undefined symbol I2C_CheckEvent (referred from oled_i2c.o).

    OBJ USART axf Error L6218E Undefined symbol I2C CheckEvent referred from oled i2c o OBJ USART axf Error L6218E Undefined
  • React 应用中的异步数据请求----fetch,以及fetch的优缺点

    React 应用中的异步数据请求 fetch 与Vue js一样 xff0c React官方也没有提供服务器端接口异步请求方案 xff1b 可以使用第三方的axios模块 xff0c 或者H5新增的原生技术 xff1a fetch 抓取 有
  • hmdb51数据集,视频+标签

    目录 视频下载链接 标签下载 hmdb介绍 其它 用于行为识别还需 帧标注 xff08 rawframe annotation xff09 视频标注 xff08 video annotation xff09 目录 视频下载链接 标签下载 h
  • vscode 连接服务器(Ubuntu系统),安装anaconda上运行深度学习代码

    目录 VSCODE的官网 Visual Studio Code Code Editing Redefined 1 安装 Romote SSH 2 添加服务器 3 进入服务器 4进入服务器文件 5 在Ubuntu上安装anconda xff0
  • nohub 和 & 在linux上不间断后台运行程序

    1 nohub xff08 没安装的要先安装 xff09 用途 xff1a 不挂断地运行命令 语法 xff1a nohup Command Arg amp 无论是否将 nohup 命令的输出重定向到终端 xff0c 输出都将附加到当前目录的
  • 《30天自制操作系统》:值得推荐的一本好书

    自己编写一个操作系统 xff0c 是许多程序员的梦想 也许有人曾经挑战过 xff0c 但因为太难而放弃了 其实你错了 xff0c 你的失败并不是因为编写操作系统太难 xff0c 而是因为没有人告诉你那其实是一件很简单的事 那么 xff0c
  • NTU RGB+D 120 划分训练集和测试集,生成标签文件。

    NTU RGB 43 D 120 总共有120类和114 480个样本 大小约为262G 包括 RGB视频分辨率为1920x1080 xff0c 深度图和IR xff08 红外 xff09 视频的分辨率均为512x424 xff0c 3D骨
  • 7z.001压缩包解压方法。(Window+Linux)

    之前遇到过的问题 xff1a Open ERROR Can not open the file as 7z archive 解决 xff1a 1 分卷文件需合并成一个7z压缩文件 1 1 如下所示是一个7z 结尾的文件 xff0c 对它的解
  • Linux 服务器上传下载文件到阿里网盘

    1 查看Linux系统架构 dpkg print architecture 2 下载安装 xff08 根据系统版本安装 xff09 2 1下载地址 https github com tickstep aliyunpan releases 2
  • CondaEnvException: Pip failed 或 Could not find a version that satisfies the requirement 问题

    1 错误实例 xff08 Could not find a version that satisfies the requirement imageio 61 61 2 27 0 xff09 2 解决方法 2 1 若对imageio的版本要
  • Linux中系统盘空间不足和显存没有释放问题

    1 系统盘空间不足 以下两个是可以直接删除 xff0c 不影响系统运行的目录 xff0c 所以首先直接删除 du sh root miniconda3 pkgs amp amp rm rf root miniconda3 pkgs cond

随机推荐

  • Ubuntu KCF 代码运行

    最近刚接触kcf xff0c 在Ubuntu上运行代码 xff0c 碰到一些问题 xff0c 借鉴了网上其他人的方法 xff0c 简单记录一下过程 KCF代码下载 KCF的代码可以去作者的网站去下载 xff1a http www robot
  • PADS学习笔记之绪论

    学习目的 在学校里的时候使用一直都是AD xff0c 现在即将毕业了 xff0c 来公司实习之后发现基本不用AD xff08 可能是怕收到律师函 xff09 xff0c 公司主要用的是PADS xff0c 某些项目也会用到cadence 虽
  • 软件工程中的框架

    什么是框架 框架 Framework 是构成一类特定软件可复用设计的一组相互协作的类 框架规定了你的应用的体系结构 它定义了整体结构 xff0c 类和对象的分割 xff0c 各部分的主要责任 xff0c 类和对象怎么协作 xff0c 以及控
  • Python argparse模块详解

    argparse是python用于解析命令行参数和选项的标准模块 xff0c 用于代替已经过时的optparse模块 官方文档中讲到的 xff0c 本文基本都提到了 xff0c 但只是简要记录 xff0c 如果需要深入理解 xff0c 可查
  • Linux下实现C语言的http请求实现

    该文件为转载文章 xff0c 作为学习和个人笔记使用 xff08 原文地址 xff09 https blog csdn net songfeihu0810232 article details 54892149 前言 Linux下的http
  • float a=1.0f在内存中的表示

    http zhidao baidu com question 314282772 html 3f800000H 61 0 01111111 00000000000000000000000B xff08 注意我分成了三段 xff09 符点型数
  • 图片返回状态码403

    在public index html 头部加一行代码 在这里插入图片描述 https img blog csdnimg cn 20200323202225328 png x oss process 61 image watermark ty
  • ROS学习笔记_01:工作空间及功能包

    1 ROS安装 xff1a 每个ROS版本对应一个Ubuntu版本 UBUNTUROSEnd of time14 04 LTSindigo IglooApril xff0c 201916 04 LTSKinetic KameApril xf
  • ROS学习笔记_02: Topic 和 msg

    1 ROS通信方式 ROS有四种通信方式 xff1a Topic 主题Service 服务Parameter Service 参数服务器Actionlib 动作库 其中 xff0c topic是最常用的一种 2 Topic Topic xf
  • Ubuntu20 + KVM虚拟机

    1 命令汇总 span class token comment 查看一下linux是32位还是64位 xff1a span span class token function file span bin ls span class toke
  • 基于PX4、树莓派和Mocap(Optitrack)的室内飞行环境搭建

    基于PX4 树莓派和Mocap Optitrack的室内飞行环境搭建 前言系统结构和原理软硬件要求Mocap环境设置主机 gt 工作站设置wifiMotive设置 Mocap gt Pixhawk硬件要求 xff1a 软件要求 xff1a
  • STL map的基本用法

    begin 返回指向map头部的迭代器 clear 删除所有元素 count 返回指定元素出现的次数 empty 如果map为空则返回true end 返回指向map末尾的迭代器 equal range 返回特殊条目的迭代器对 erase
  • 自己动手写操作系统(高清图书+源代码)分享

    很喜欢 自己动手写操作系统 这本书 xff0c 但现在这本书已经绝版了 在这里分享一下这本书的高清电子版和源代码 xff0c 感兴趣的人可以下载一下 链接 xff1a https pan baidu com s 1lPXg Airu2NFj
  • 四旋翼飞行器控制pid学习笔记

    PID控制学习笔记 凡事必躬亲 xff0c 身体而力行 xff0c 化理论为实践 xff0c 方得始终 研究PID xff0c 首先应当把PID拆解开来 xff0c 便是P xff08 比例控制 xff09 I xff08 积分控制 xff
  • Ubuntu使用终端命令安装谷歌Chrome浏览器

    sudo wget http www linuxidc com files repo google chrome list P etc apt sources list d wget q O https dl google com linu
  • 为什么C/C++很多内部函数由下划线开头?关于VS中的CRT_SECURE

    以下摘自compatibility 兼容性 通用 C运行时库 UCRT 支持实现 C 43 43 一致性所需的大多数 C 标准库 它实现 C99 xff08 ISO IEC 9899 1999 xff09 库 xff0c 但有一些例外情况
  • 实现快速全自动Ubuntu批量安装的步骤

    随着使用ubuntu系统的用户越来越多 xff0c 对于一台PC机安装ubuntu系统来说并不是难事 xff0c 但是如果对于企业里新增的几十台几十台服务器 xff0c 一台一台安装 xff0c 实在是太累 xff0c 通过以下方法 xff
  • ESP32基础应用之FreeRTOS使用

    文章目录 前言1 FreeRTOS 任务的使用1 1 任务状态1 2 任务优先级1 3 创建任务 2 FreeRTOS 事件标志组的使用 参考资料 xff1a STM32F103 FreeRTOS开发手册V1 1 pdf 前言 1 Free
  • STM32CubeMX之FreeRTOS

    文章目录 1 STM32CubeMX参数配置及其说明1 1 FreeRTOS Mode1 2 Config parameters1 2 1 Kernel setting1 2 2 Memory management setting1 2 3
  • 数据分析学习之:如何均衡样本——使用 imblearn 库实现重采样(resampling),过采样(over-sampling) + 欠采样(under-sampling))

    文章目录 什么是样本不平衡如何平衡数据集的样本 重采样欠采样 xff08 也叫 undersampling xff09 将大的样本集的数据全部筛选出来通过随机采样操作采样固定个数的样本留下和少样本的样本集拼合成最终的样本集样本均衡了 过采样