如何在 python 中的 sklearn 中通过交叉验证执行 SMOTE

2024-01-16

我有一个高度不平衡的数据集，想要执行 SMOTE 来平衡数据集并执行交叉验证来测量准确性。然而，大多数现有教程仅使用单个training and testing迭代来执行 SMOTE。

因此，我想知道使用交叉验证执行 SMOTE 的正确过程。

我当前的代码如下。然而，如上所述，它仅使用单次迭代。

from imblearn.over_sampling import SMOTE
from sklearn.model_selection import train_test_split

X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.3, random_state=0)
sm = SMOTE(random_state=2)
X_train_res, y_train_res = sm.fit_sample(X_train, y_train.ravel())
clf_rf = RandomForestClassifier(n_estimators=25, random_state=12)
clf_rf.fit(x_train_res, y_train_res)

如果需要，我很乐意提供更多详细信息。

您需要执行 SMOTEwithin每一次折叠。因此，您需要避免train_test_split赞成KFold:

from sklearn.model_selection import KFold
from imblearn.over_sampling import SMOTE
from sklearn.metrics import f1_score

kf = KFold(n_splits=5)

for fold, (train_index, test_index) in enumerate(kf.split(X), 1):
    X_train = X[train_index]
    y_train = y[train_index]  # Based on your code, you might need a ravel call here, but I would look into how you're generating your y
    X_test = X[test_index]
    y_test = y[test_index]  # See comment on ravel and  y_train
    sm = SMOTE()
    X_train_oversampled, y_train_oversampled = sm.fit_sample(X_train, y_train)
    model = ...  # Choose a model here
    model.fit(X_train_oversampled, y_train_oversampled )  
    y_pred = model.predict(X_test)
    print(f'For fold {fold}:')
    print(f'Accuracy: {model.score(X_test, y_test)}')
    print(f'f-score: {f1_score(y_test, y_pred)}')

例如，您还可以将分数附加到list定义在外部。

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)

python

machinelearning

scikitlearn

crossvalidation

imblearn

如何在 python 中的 sklearn 中通过交叉验证执行 SMOTE 的相关文章

是否有解决方法可以通过 CoinGecko API 安全检查？

我在工作中运行我的代码一切都很顺利但在不同的网络家庭 WiFi 上我不断收到403访问时出错CoinGecko V3 API https www coingecko com api documentations v3 可以观察到在
与区域指示符字符类匹配的 python 正则表达式

我在 Mac 上使用 python 2 7 10 表情符号中的标志由一对表示区域指示符号 https en wikipedia org wiki Regional Indicator Symbol 我想编写一个 python 正则表达式来在
Python 中的哈希映射

我想用Python实现HashMap 我想请求用户输入根据他的输入我从 HashMap 中检索一些信息如果用户输入HashMap的某个键我想检索相应的值如何在 Python 中实现此功能 HashMap
安装了 32 位的 Python，显示为 64 位

我需要运行 32 位版本的 Python 我认为这就是我在我的机器上运行的因为这是我下载的安装程序当我重新运行安装程序时它会将当前安装的 Python 版本称为 Python 3 5 32 位然而当我跑步时platform arch
Python 中的舍入浮点问题

我遇到了 np round np around 的问题它没有正确舍入我无法包含代码因为当我手动设置值而不是使用我的数据时返回有效但这是输出 In 177 a Out 177 0 0099999998 In 178 np rou
Pandas/Google BigQuery：架构不匹配导致上传失败

我的谷歌表中的架构如下所示 price datetime DATETIME symbol STRING bid open FLOAT bid high FLOAT bid low FLOAT bid close FLOAT ask open
Python getstatusoutput 替换不返回完整输出

我发现了这个很棒的替代品getstatusoutput Python 2 中的函数在 Unix 和 Windows 上同样有效不过我觉得这个方法有问题output被构建它只返回输出的最后一行但我不明白为什么任何帮助都是极好的 def
跟踪 pypi 依赖项 - 谁在使用我的包

无论如何是否可以通过 pip 或 PyPi 来识别哪些项目在 Pypi 上发布可能正在使用我的包也在 PyPi 上发布我想确定每个包的用户群以及可能尝试积极与他们互动预先感谢您的任何答案即使我想做的事情是不可能的这实际上是不
删除flask中的一对一关系

我目前正在使用 Flask 开发一个应用程序并且在删除一对一关系中的项目时遇到了一个大问题我的模型中有以下结构 class User db Model tablename user user id db Column db String
使用 kivy textinput 的 'input_type' 属性的问题

您好我在使用 kivy 的文本输入小部件的 input type 属性时遇到问题问题是我制作了两个自定义文本输入其中一个称为 StrText 其中设置了 input type text 然后是第二个文本输入名为 NumText 其
YOLOv8获取预测边界框

我想将 OpenCV 与 YOLOv8 集成ultralytics 所以我想从模型预测中获取边界框坐标我该怎么做呢 from ultralytics import YOLO import cv2 model YOLO yolov8n pt
使用 xlrd 打开 BytesIO (xlsx)

我正在使用 Django 需要读取上传的 xlsx 文件的工作表和单元格使用 xlrd 应该可以但因为文件必须保留在内存中并且可能不会保存到我不知道如何继续的位置本例中的起点是一个带有上传输入和提交按钮的网页提交后文件被捕获req
如何通过 TLS 1.2 运行 django runserver

我正在本地 Mac OS X 机器上测试 Stripe 订单我正在实现这段代码 stripe api key settings STRIPE SECRET order stripe Order create currency usd em
javascript 是否有等效的 __repr__ ？

我最接近Python的东西repr这是 function User name password this name name this password password User prototype toString function r
import matplotlib.pyplot 给出 AttributeError: 'NoneType' 对象没有属性 'is_interactive'

我尝试在 Pycharm 控制台中导入 matplotlib pyplt import matplotlib pyplot as plt 然后作为回报我得到 Traceback most recent call last File D Pr
在本地网络上运行 Bokeh 服务器

我有一个简单的 Bokeh 应用程序名为app py如下 contents of app py from bokeh client import push session from bokeh embed import server do
如何计算Python中字典中最常见的前10个值

我对 python 和一般编程都很陌生所以请友善我正在尝试分析包含音乐信息的 csv 文件并返回最常听的前 n 个乐队从下面的代码中每听一首歌曲都是一个列表中的字典条目格式如下 album Exile on Main Street
Pandas 每周计算重复值

我有一个Dataframe包含按周分组的日期和 ID df date id 2022 02 07 1 3 5 4 2022 02 14 2 1 3 2022 02 21 9 10 1 2022 05 16 我想计算每周有多少 id 与上周重
更改 Tk 标签小部件中单个单词的颜色

我想更改 Tkinter 标签小部件中单个单词的字体颜色我知道可以使用文本小部件来实现与我想要完成的类似的事情例如使单词 YELLOW 显示为黄色 self text tag config tag yel fg clr yellow s
使用随机放置的 NaN 创建示例 numpy 数组

出于测试目的我想创建一个M by Nnumpy 数组与c随机放置的 NaN import numpy as np M 10 N 5 c 15 A np random randn M N A mask np nan 我在创建时遇到问题mas

随机推荐

如何更改我的减速器中的状态，尝试将属性设置为 true/false

我的减速器是分开的其中一个我的初始状态和减速器如下所示 import Constants from constants const initialState fetching true const boards state initial
错误：scalac：“jvm-1.9”不是“-target”的有效选择

使用 Gradle 创建了一个新的干净的 Scala 项目这是唯一的依赖项 compile org scala lang scala library 2 12 4 在命令行上构建时 gradlew build工作得很好然而当使用 In
在 apache 服务器上使用 PHP 将 ppt/pptx 转换为 JPG/PNG

有人知道在 apache 服务器上使用 PHP 将 ppt pptx 幻灯片转换为服务器上的图像的方法吗据我了解一种方法是在服务器上安装microsoft powerpoint 或者可能是openoffice 以便将powerpoint
Android 动画 XML 问题

我正在尝试使用 Android 的动画框架让我的 ImageView 以菱形图案移动这是我的animation xml
如何在鼠标悬停时在 div 元素周围创建边框

我想在鼠标悬停在元素上方时在元素周围创建边框我正在尝试使用 body mouseover function e var element document elementFromPoint e clientX e clientY var t
如何通过拖动 Widget 的角来调整 Widget 上的 QTableWidget 大小

我想调整大小QTableWidget通过拖动右下角如下面的屏幕截图所示这个怎么做这是我的代码 code from PySide QtGui import QApplication QWidget QTableWidget week m
良好的 Java 属性文件编辑器

我从事一个开源 Java 项目我们有很多包含可本地化消息资源的资源属性文件这些文件由志愿者翻译成 20 多种语言而我是一名主要编辑代码的开发人员在 Java 中不同语言环境的资源文件通过命名约定分组在一起例如如果默认通常是英
Clickhouse数据导入

我在Clickhouse中创建了一个表 CREATE TABLE stock plant Int32 code Int32 service level Float32 qty Int32 ENGINE Log 有一个数据文件 head n
更新不在 Google Play 上的内部 Android 应用程序？

我正在开发一个内部应用程序但它不会出现在 Google Play 上我该如何更新此应用程序非常感谢大家向人们发送新的 apk 或者让它检测何时有新版本并告诉他们单击链接进行下载
C#：实现格式良好的时间字符串的最佳方法？

我写这个问题是因为我正在寻求最好的方法来做到这一点我的程序中有很多这样的内容我想创建一种方法将包含计时器秒数的 Int32 转换为格式良好的字符串例如如果我的计时器 int 为 at 可以说一个随机数例如 16429 这将是 4
如何在Java代码中使用Scala注解

有什么方法可以使用 Scala 中定义的注释以便它们可以与 Java 代码一起使用吗我有一个带有一些注释的库我想在 Java 中使用引用自 scaladocs 注释的基类直接扩展此类的注释不会保留在类文件中启用存储类文件的 S
对“dlsym”和“dlopen”的未定义引用

我正在使用arm linux gnueabi g 版本4 7 3进行编译我在以下位置安装了 arm linux gnueabi 库 usr arm linux gnueabi lib 它包含libdl a libdl so libdl s
DataGridView 选择更改事件并从数据库中删除选定的行

我的表单上有一个单选按钮一个网格视图和一个按钮这是我的datagridview selection changed代码示例 private void DataGridView1 SelectionChanged object sende
PerformSelectorOnMainThread中的WaitUntilDOne有什么意义？

有什么意义WaitUntilDOne in performSelectorOnMainThread 通过什么方式YES or NO set to WaitUntilDoneApp上可以有吗 UPDATE 我的问题应该是它们在什么情况下会产
分层数据模板中的命令绑定

我的应用程序中有菜单我使用分层数据模板将其可视化
使用 onBlur 验证输入类型=文件

我可以使用 onBlur 来验证 type text 或 textarea 输入但是我无法让同样的方法适用于 type file 这有效
亚马逊 SimpleDB 与亚马逊 DynamoDB

我有一些基本的了解亚马逊简单数据库 http aws amazon com simpledb 是但根据亚马逊动态数据库 http aws amazon com dynamodb 描述似乎几乎相同 aNoSQL 键值存储 http en w
Hackage 包“双重转换”中未定义的符号

我正在尝试建立double conversion来自 Hackage 的包它构建正常但 ghci 无法加载它投诉内容是 Loading package double conversion 0 2 0 0 linking
Seaborn KDEPlot - 数据变化不够？

我有一个包含 900 行的数据框我正在尝试为某些列绘制 KDE 图在某些列中大多数值都是相同的最小值当我包含太多最小值时 KDEPlot 会突然停止显示最小值例如以下包含 600 个值其中 450 个是最小值并且绘图看起来不
如何在 python 中的 sklearn 中通过交叉验证执行 SMOTE

我有一个高度不平衡的数据集想要执行 SMOTE 来平衡数据集并执行交叉验证来测量准确性然而大多数现有教程仅使用单个training and testing迭代来执行 SMOTE 因此我想知道使用交叉验证执行 SMOTE 的正确过程

如何在 python 中的 sklearn 中通过交叉验证执行 SMOTE

如何在 python 中的 sklearn 中通过交叉验证执行 SMOTE 的相关文章

随机推荐

热门标签