Python 实现不平衡采样

2023-10-29

在这里插入图片描述

本文将基于不平衡数据,使用Python进行反欺诈模型数据分析实战,模拟分类预测模型中因变量分类出现不平衡时该如何解决,具体的案例应用场景除反欺诈外,还有客户违约和疾病检测等。只要是因变量中各分类占比悬殊,就可对其使用一定的采样方法,以达到除模型调优外的精度提升。主要将分为两个部分:

  • 原理介绍
  • Python实战

本文用到的数据与源代码可在公众号 “ 数据分析与商业实践 ” 后台回复 “ 反欺诈 ” 领取。

原理介绍

与其花大量的时间对建好的模型进行各种调优操作,不如在一开始就对源数据进行系统而严谨的处理。而数据处理背后的算法原理又常是理解代码的支撑。所以本节将详细介绍不平衡采样的多种方法。

在以往的学习中,数据大多是对称分布的,就像下图一样,即正负样本的数量相当。

在这里插入图片描述

这样可以更好的把注意力集中在特定的算法上,而不被其他问题干扰。以分离算法为例,它的目标是尝试学习出一个能够分辨二者的分离器(分类器)。根据不同的数学、统计或几何假设,达成这一目标的方法很多:逻辑回归,岭回归,决策树,和各种聚类算法等。

但当我们开始面对真实的、未经加工过的数据时,很快就会发现这些数据要嘈杂且不平衡得多。真实数据看起来更像是如下图般毫无规律且零散。对于不平衡类的研究通常认为 “不平衡” 意味着少数类只占 10% ~ 20%。但其实这已经算好的了,在现实中的许多例子会更加的不平衡(1~2%),如规划中的客户信用卡欺诈率,重大疾病感染率等。就像下图一样

img如果我们拿到像上图那样的数据,哪怕经过了清洗,已经非常整洁了,之后把它们直接丢进逻辑回归或者决策树和神经网络模型里面的话,效果一定会见得好吗?。以根据患者体征来预测其得某种罕见病为例:可能模型在预测该患者不得病上特准,毕竟不得病的数据占到了98%,那把剩下的得病的那 2% 也都预测成了不得病的情况下模型的整体准确度还是非常高…但整体准确度高并不代表模型在现实情况就能有相同的优良表现,所以最好还是能够拿到 1:1 的数据,这样模型预测出来的结果才最可靠。

问:直接分层抽样可否?即从占比多的 0 中随机抽出与占比少的 1 数目相当的数据。

分层抽样是一个不错的方法,但在做金融数据分析时,不少银行的贷款数据都是只有个一两万条。以一万条为例,违约率 y(0-履约,1-违约) 为 1%,那 y 等于 0 和 1 的数据量就分别为 100,9900;按照你之前说的 1:1,也就是从 y=1 的数据中也抽 100 条,那总共用于建模的总数据量也就才 200 条,这不就搞笑了吗,还不算 train:test = 7:3 的划分,这么少的数据量还建什么模呢?

问:但 y=1(违约)的数据总共就只有 100 条的话,还把比例设为 1:1 的话会不会有点太严格了?

会有一点,所以对那些贷款记录比较少的城商行,在建模筛选数据时,可以把标准适当放宽。比如对那些只有1w条数据的,违约:履约 可以去到 1:10,再多就不准了,一般是 1:1 ~ 1:10 间。

问:哪怕去到了 1:10,违约和履约的数据加起来还是太少了啊,1100 条数据也不够训练出一个好的模型啊…

所以对于这类数据,常见而有效的处理方式有基本的数据处理、调整样本权重与使用模型等三类。
img本文将专注于从数据处理的角度来解决数据不平衡问题,后续推文会涉及使用模型来处理。img

注意事项:

  • 评估指标:使用精确度(Precise Rate)、召回率(Recall Rate)、Fmeasure或ROC曲线、准确度召回曲线(precision-recall curve);不要使用准确度(Accurate Rate)
  • 不要使用模型给出的标签,而是要概率估计;得到概率估计之后,不要盲目地使用0.50的决策阀值来区分类别,应该再检查表现曲线之后再自己决定使用哪个阈值。

:为什么数据处理的几种采样方法都只对训练集进行操作?

:因为原始数据集的 0-1 比为 1:99,所以随即拆分成的训练集和测试集的 0-1 比也差不多是 1:99,又因为我们用训练集来训练模型,如果不对训练集的数据做任何操作,得出来模型就会在预测分类0的准度上比1高,而我们希望的是两者都要兼顾,所以我们才要使用欠采样或者过采样对训练集进行处理,使训练集的 0-1 比在我们之前聊到的 1:1 ~ 1:10 这个比较合适的区间,用这样的训练集训练出来的模型的泛化能力会更强。以打靶作为比喻,靶心面积很小,对应了占比小的违约客户群体。在 0-1 比为 1:99 的测试集的严酷考验下,模型打中靶心(成功预测违约客户)与打中靶心周围(成功预测履约客户)的概率都得到了保证。


欠采样与过采样

img

img

过采样会随机复制少数样例以增大它们的规模。欠采样则随机地少采样主要的类。一些数据科学家(天真地)认为过采样更好,因为其会得到更多的数据,而欠采样会将数据丢掉。但请记住复制数据不是没有后果的——因为其会得到复制出来的数据,它就会使变量的方差表面上比实际上更小。而过采样的好处是它也会复制误差的数量:如果一个分类器在原始的少数类数据集上做出了一个错误的负面错误,那么将该数据集复制五次之后,该分类器就会在新的数据集上出现六个错误。相对地,欠采样会让独立变量(independent variable)的方差看起来比其实际的方差更高。


Tomek Link 法欠采样

img上图为 Tomek Link 欠采样法的核心。不难发现左边的分布中 0-1 两个类别之间并没有明显的分界。Tomek Link 法处理后,将占比多的一方(0),与离它(0)最近的一个少的另一方 (1) 配对,而后将这个配对删去,这样一来便如右边所示构造出了一条明显一些的分界线。所以说欠采样需要在占比少的那一类的数据量比较大的时候使用(大型互联网公司与银行),毕竟一命抵一命…


Random Over Sampling 随机过采样

随机过采样并不是将原始数据集中占比少的类简单的乘个指定的倍数,而是对较少类按一定比例进行一定次数的随机抽样,然后将每次随机抽样所得到的数据集叠加。但如果只是简单的随机抽样也难免会出现问题,因为任意两次的随机抽样中,可能会有重复被抽到的数据,所以经过多次随机抽样后叠加在一起的数据中可能会有不少的重复值,这便会使数据的变异程度减小。所以这是随机过采样的弊端。

img


SMOTE 过采样

SMOTE 过采样法的出现正好弥补了随机过采样的不足,其核心步骤如下图img但SMOTE 并不是一点坏处都没有。上图的数据分布 SMOTE 方法的步骤示意图是比较理想的情况(两个类别分得还比较开),通常数据不平衡的散点图应该是像下面这样的:img而这个时候如果我们依然使用 SMOTE 来过采样的话就会出现下面的问题

在这里插入图片描述

理想情况下的图中我们可以看出黑点的分布似乎是可以用一条线连起来的,而现实情况中的数据往往太过分散,比如上图中的黑点是呈现U型曲线的分布,在这个情况下,SMOTE 算法的第四步作中间插值后,可能这个新插入的点刚好就是某个白点所在的点。本来是 0 的地盘,密密集集的0当中突然给生硬的插进去了一个1…这就使数据又重复了

综合采样

综合采样的核心:先使用过采样,扩大样本后再对处在胶着状态的点用 Tomek Link 法进行删除,有时候甚至连 Tomek Link 都不用,直接把离得近的对全部删除,因为在进行过采样后,0 和 1 的样本量已经达到了 1:1。

在这里插入图片描述

Python实战

数据探索

首先导入相关包

import pandas as pd
import numpy as np
import matplotlib.pyplot as plt
import seaborn as sns

为了方便叙述建模流程,这里准备了两个脱敏数据集:一个训练集一个测试集

train = pd.read_csv('imb_train.csv')
test = pd.read_csv('imb_test.csv')

print(f'训练集数据长度:{len(train)},测试集数据长度:{len(test)}')
train.sample(3)

稍微解释下参数:

  • X1 ~ X5:自变量,
  • cls:因变量 care life of science - 科学关爱生命 0-不得病,1-得病

现在查看测试集与训练集的因变量分类情况

print('训练集中,因变量 cls 分类情况:')
print(train['cls'].agg(['value_counts']).T)
print('='*55 + '\n')

print('测试集中,因变量 cls 分类情况:')
print(test['cls'].agg(['value_counts']).T)

img可知训练集和测试集中的占比少的类别 1 实在是太少了,比较严重的不平衡,我们还可以使用 Counter 库统计一下两个数据集中因变量的分类情况,不难发现数据不平衡问题还是比较严重

from collections import Counter
print('训练集中因变量 cls 分类情况:{}'.format(Counter(train['cls'])))
print('测试集因变量 cls 分类情况:{}'.format(Counter(test['cls'])))
#训练集中因变量 cls 分类情况:Counter({0: 13644, 1: 356})
#测试集因变量 cls 分类情况:Counter({0: 5848, 1: 152})

不同的抽样方法对训练集进行处理

在处理前再次重申两点:

  • 测试集不做任何处理!保留严峻的比例考验来测试模型。
  • 训练模型时用到的数据才是经过处理的,0-1 比例在 1:1 ~ 1:10 之间拆分自变量与因变量

拆分自变量与因变量

y_train = train['cls'];        y_test = test['cls']
X_train = train.loc[:, :'X5'];  X_test = test.loc[:, :'X5']
X_train.sample(), y_train[:1] 
#(            X1        X2        X3       X4        X5
# 9382 -1.191287  1.363136 -0.705131 -1.24394 -0.520264, 0    0
# Name: cls, dtype: int64)

抽样的几种方法

  • Random Over Sampling:随机过抽样
  • SMOTE 方法过抽样
  • SMOTETomek 综合抽样

我们将用到imbalance learning这个包,pip install imblearn安装一下即可,下面是不同抽样方法的核心代码,具体如何使用请看注释

from imblearn.over_sampling import RandomOverSampler
print('不经过任何采样处理的原始 y_train 中的分类情况:{}'.format(Counter(y_train)))

# 采样策略 sampling_strategy = 'auto' 的 auto 默认抽成 1:1,
 ## 如果想要另外的比例如杰克所说的 1:5,甚至底线 1:10,需要根据文档自行调整参数
 ## 文档:https://imbalanced-learn.readthedocs.io/en/stable/generated/imblearn.over_sampling.RandomOverSampler.html
# 先定义好好,未开始正式训练拟合
ros = RandomOverSampler(random_state=0, sampling_strategy='auto') 
X_ros, y_ros = ros.fit_sample(X_train, y_train)
print('随机过采样后,训练集 y_ros 中的分类情况:{}'.format(Counter(y_ros)))

# 同理,SMOTE 的步骤也是如此
from imblearn.over_sampling import SMOTE
sos = SMOTE(random_state=0)
X_sos, y_sos = sos.fit_sample(X_train, y_train)
print('SMOTE过采样后,训练集 y_sos 中的分类情况:{}'.format(Counter(y_sos)))

# 同理,综合采样(先过采样再欠采样)
## # combine 表示组合抽样,所以 SMOTE 与 Tomek 这两个英文单词写在了一起
from imblearn.combine import SMOTETomek
kos = SMOTETomek(random_state=0)  # 综合采样
X_kos, y_kos = kos.fit_sample(X_train, y_train)
print('综合采样后,训练集 y_kos 中的分类情况:{}'.format(Counter(y_kos)))

在这里插入图片描述
不难看出两种过采样方法都将原来 y_train 中的占比少的分类 1 提到了与 0 数量一致的情况,但因为综合采样在过采样后会使用欠采样,所以数量会稍微少一点点


决策树建模

看似高大上的梯度优化其实也被业内称为硬调优,即每个模型参数都给几个潜在值,而后让模型将其自由组合,根据模型精度结果记录并输出最佳组合,以用于测试集的验证。首先导入相关包

from sklearn.tree import DecisionTreeClassifier
from sklearn import metrics
from sklearn.model_selection import GridSearchCV

现在创建决策树类,但并没有正式开始训练模型

clf = DecisionTreeClassifier(criterion='gini', random_state=1234)
# 梯度优化
param_grid = {'max_depth':[3, 4, 5, 6], 'max_leaf_nodes':[4, 6, 8, 10, 12]}
# cv 表示是创建一个类,还并没有开始训练模型
cv = GridSearchCV(clf, param_grid=param_grid, scoring='f1')

如下是模型的训练数据的组合,注意!这里的数据使用大有玄机,第一组数据X,y_train是没有经过任何操作的,第二组ros为随机过采样,第三组sos为SMOTE过采样,最后一组kos则为综合采样

data = [[X_train, y_train],
        [X_ros, y_ros],
        [X_sos, y_sos],
        [X_kos, y_kos]]

现在对四组数据分别做模型,要注意其实recallprecision的用处都不大,看auc即可,recall:覆盖率,预测出分类为0且正确的,但本来数据集中分类为0的占比本来就很大。而且recall是以阈值为 0.5 来计算的,那我们就可以简单的认为预测的欺诈概率大于0.5就算欺诈了吗?还是说如果他的潜在欺诈概率只要超过 20% 就已经算为欺诈了呢?

for features, labels in data:
    cv.fit(features, labels) # 对四组数据分别做模型
    # 注意:X_test 是从来没被动过的,回应了理论知识:
     ## 使用比例优良的(1:1~1:10)训练集来训练模型,用残酷的(分类为1的仅有2%)测试集来考验模型
    predict_test = cv.predict(X_test) 
    print('auc:%.3f' %metrics.roc_auc_score(y_test, predict_test), 
          'recall:%.3f' %metrics.recall_score(y_test, predict_test),
          'precision:%.3f' %metrics.precision_score(y_test, predict_test))

img可以发现并不一定是综合采样就一定高分,毕竟每份数据集都有属于它自己的特征,不过一点都不处理的模型的 auc 是最低的。

最后总结一下,随机过采样,SMOTE过采样与综合采样只是解决数据不平衡问题方法中的冰山一角,后面还会继续深入浅出使用其他模型来平衡数据,本文用到的数据与源代码可在公众号 “ 数据分析与商业实践 ” 后台回复 “ 反欺诈 ” 领取。

在这里插入图片描述
不到70行Python代码,轻松玩转决策树预测客户违约模型(附案例数据与代码)

公众号后续会不断更新常见场景下的 Python 实践
在这里插入图片描述

本文内容由网友自发贡献,版权归原作者所有,本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容,请联系:hwhale#tublm.com(使用前将#替换为@)

Python 实现不平衡采样 的相关文章

随机推荐

  • Pyspark案例综合(数据计算)

    数据计算 map方法 map算子 map算子 成员方法 接受一个处理函数 可用lambda快速编写 对RDD内的元素一一处理 返回RDD对象 链式调用 对于返回值是新的RDD的算子 可以通过链式调用的方式多次调用算子 演示RDD的map成员
  • IE命令行参数

    Windows Internet Explorer includes several command line options that enable you to troubleshoot and configure the browse
  • Chrome开发者工具详解(一)

    Chrome开发者工具详解 一 前言 一 打开开发者工具方法 二 面板常用方法 1 Elements面板 2 Network 面板 总结 前言 Chrome浏览器中内置了一套强大的开发者工具 学会使用Chrome开发者工具对web网站进行静
  • window10下conda使用报错:An unexpected error has occurred. Conda has prepared the above report.

    在我使用anaconda3创建环境 跑实验时 把镜像三搞两搞 搞出了问题 卡死了 An unexpected error has occurred Conda has prepared the above report 网上找了好多方法都没
  • 百度2015年系统工程师笔试题:设计一个小程序来判断当前机器的字节序怕【详解】

    目录 设计思路 代码实现 设计思路 首先 我们要了解需要判断的东西是什么 这就需要我们了解大小端的概念 大端 存储 模式 是指数据的低位保存在内存的高地址中 而数据的高位 保存在内存的低地址 中 小端 存储 模式 是指数据的低位保存在内存的
  • linux globbing文件通配符

    在linux中使用ls cp mv rm等命令时可以使用文件通配符匹配操作多个文件 匹配模式 匹配任意长度的任意字符 匹配任意单个字符 匹配指定范围内的任意单个字符 文件通配不区分字母的大小写 匹配非制定范围内的任意单个字符 特殊格式 up
  • 使用jsoup爬取小说

    1 开局扯犊子 最近正在学习Java爬虫技术 于是乎接触到了jsoup这个东西 继爬取美女图片后的第二个小项目 爬取笔趣阁小说 2 页面分析 首先我们进入笔趣阁选择一本喜欢的小说 f12后拿到他的title与每一章的地址 然后我们继续分析进
  • 【Hive】Hive元数据库介绍及信息查看

    转载 dabokele 在安装Hive时 需要在hive site xml文件中配置元数据相关信息 与传统关系型数据库不同的是 hive表中的数据都是保存的HDFS上 也就是说hive中的数据库 表 分区等都可以在HDFS找到对应的文件 这
  • 冒泡排序 例题:给出一组数将这组数按从小到大的顺序输出出来

    冒泡排序 例题 给出一组数将这组数按从小到大的顺序输出出来 学习笔记 方便自己日后复习 也可供大家参考学习 冒泡排序百度上是这样定义的 冒泡排序 它重复的走访过要排序的元素列 依次比较两个相邻元素 如果他们的顺序 如从大到小 首字母从A到Z
  • 进程和线程的区别和联系

    一 简介 进程 进程是操作系统资源分配的基本单位 进程是指正在运行的程序实例 每个进程都有自己的内存空间 代码 数据和资源 操作系统通过管理进程来控制计算机的资源分配 每个进程都有一个唯一的标识符 称为进程 ID 以便操作系统可以识别和管理
  • NCCL error in: , unhandled system error

    今天pytorch分布式跑代码的时候出现 RuntimeError NCCL error in opt conda conda bld pytorch 1614378083779 work torch lib c10d ProcessGro
  • Vue脚手架的创建

    首先创建脚手架 初始化脚手架 Vue脚手架 是Vue官方提供的标准化开发工具 开发平台 Vue CLI 1 配置npm 2 全局安装 vue cli npm install g vue cli 3 切换到创建项目的目录 使用命令创建项目 v
  • Open3D 点云DBSCAN密度聚类并保存聚类结果

    目录 一 算法原理 1 密度聚类 2 主要函数 3 参考文献 二 代码实现 三 结果展示 1 保存聚类 2 可视化 一 算法原理 1 密度聚类 密度聚类是将簇定义为密度相连的点的最大集合 能够把具有足够高密度的区域划分为簇 并可在噪声的空间
  • 并行编程OpenCL-矩阵相加

    并行编程OpenCL 矩阵相加 1 host端代码 include
  • springboot之mybatis进阶

    springboot之mybatis进阶 简介 CRUD标签 select insert update delete resultMap sql片段 动态sql if choose when otherwise where 和set for
  • 关于使用SSM框架搭建的项目的运行方法

    目录 运行环境配置 1 安装 IDEA 开发工具 中文版设置 JDK直接下载 2 安装 MYSQL 数据库 2 1 下载安装 2 2 配置环境变量 2 4 安装 MySQL 2 4 进入 MySQL 2 5 常见问题 3 安装Tomcat
  • java日期之间的比较【项目日常】

    一 String类中提供了compareTo方法 原理是将字符串转成char 从char 0 开始进行比较 如果两值不相等 则返回相减的结果 一般将结果与0相比 进行判断 并不关心返回的具体值 String s1 2022 09 22 St
  • 蓝桥杯每日练习2

    文章目录 一 Fibonacci斐波那契数列 1 题目 2 样例 3 解析 4 Python代码 二 求圆的面积 1 题目 2 样例 3 解析 4 Python代码 三 N以内累加求和 1 题目 2 样例 3 解析 4 Python代码 四
  • 分布式文件系统 - FastDFS 在UBUNTU下安装

    分布式文件系统 FastDFS 在 CentOS 下配置安装部署 按照该博主的介绍 大部分安装操作正常 只是在创建软连接的时候报错 所以只好用笨办法启动和关闭 启动tracker usr bin fdfs trackerd etc fdfs
  • Python 实现不平衡采样

    本文将基于不平衡数据 使用Python进行反欺诈模型数据分析实战 模拟分类预测模型中因变量分类出现不平衡时该如何解决 具体的案例应用场景除反欺诈外 还有客户违约和疾病检测等 只要是因变量中各分类占比悬殊 就可对其使用一定的采样方法 以达到除