仅在训练折叠上使用 sklearn 的 RandomizedSearchCV 和 SMOTE 过采样

2024-03-17

我有一个高度不平衡的数据集（99.5:0.5）。我想使用以下命令对随机森林模型执行超参数调整sklearn's RandomizedSearchCV。我希望使用 SMOTE 对每个训练折叠进行过采样，然后在最终折叠上评估每个测试，保持原始分布而不进行任何过采样。由于这些测试折叠高度不平衡，我希望使用 F1 分数来评估测试。

我已经尝试过以下方法：

from sklearn.ensemble import RandomForestClassifier
from sklearn.model_selection import RandomizedSearchCV, StratifiedKFold
from imblearn.over_sampling import SMOTE
from imblearn.pipeline import make_pipeline
import pandas as pd

dataset = pd.read_csv("data/dataset.csv")

data_x = dataset.drop(["label"], axis=1)
data_y = dataset["label"]

smote = SMOTE()
model = RandomForestClassifier()

pipeline = make_pipeline(smote, model)

grid = {
    "randomforestclassifier__n_estimators": [10, 25, 50, 100, 250, 500, 750, 1000, 1250, 1500, 1750, 2000],
    "randomforestclassifier__criterion": ["gini", "entropy"],
    "randomforestclassifier__max_depth": [10, 20, 30, 40, 50, 75, 100, 150, 200, None],
    "randomforestclassifier__min_samples_split": [1, 2, 3, 4, 5, 8, 10, 15, 20],
    "randomforestclassifier__min_samples_leaf": [1, 2, 3, 4, 5, 8, 10, 15, 20],
    "randomforestclassifier__max_features": ["auto", None, 0.1, 0.2, 0.3, 0.4, 0.5, 0.6, 0.7, 0.8, 0.9],
    "randomforestclassifier__bootstrap": [True, False],
    "randomforestclassifier__max_samples": [None, 0.1, 0.2, 0.3, 0.4, 0.5, 0.6, 0.7, 0.8, 0.9],
}

kf = StratifiedKFold(n_splits=5)

search = RandomizedSearchCV(pipeline, grid, scoring='f1', n_iter=10, n_jobs=-1, cv=kf)

search = search.fit(data_x, data_y)

print(search.best_params_)

但是，我不确定 SMOTE 是否应用于每次迭代的测试集。

如何确保 SMOTE 仅应用于训练折叠，而不应用于测试折叠？

EDIT:

本文 https://kiwidamien.github.io/how-to-do-cross-validation-when-upsampling-data.html似乎回答了我的问题（特别是在第 3B 节中），提供了我正在尝试执行的示例代码，并演示了它如何按照我指定的方式工作

正如我编辑中链接的文章所示，当imblearn Pipeline被传递给sklearn's RandomizedSearchCV，转换似乎仅应用于训练折叠上的数据，而不应用于验证折叠上的数据。（我不明白这是如何工作的，因为例如，如果将缩放器传递到管道中，您会希望将其应用于所有数据，而不仅仅是训练折叠）。

我使用以下代码对此进行了测试，该代码实际上没有进行任何超参数调整，而是模拟参数正在调整的情况，并且验证 F1 分数几乎与我最终测试的 F1 分数相同。

from sklearn.ensemble import RandomForestClassifier
from sklearn.model_selection import train_test_split
from sklearn.model_selection import RandomizedSearchCV, StratifiedKFold
from sklearn.metrics import confusion_matrix, classification_report
from imblearn.over_sampling import SMOTE
from imblearn.pipeline import Pipeline
import pandas as pd

# TRAIN / TEST SPLIT

dataset = pd.read_csv("data/dataset.csv")

data_x = dataset.drop(["label"], axis=1)
data_y = dataset["label"]

train_x, test_x, train_y, test_y = train_test_split(
    data_x, data_y, test_size=0.3, shuffle=True
)

# HYPERPARAMETER TUNING

pipeline = Pipeline([("smote", SMOTE()), ("rf", RandomForestClassifier())])

grid = {
    "rf__n_estimators": [100],
}

kf = StratifiedKFold(n_splits=5)

# Just applies smote to the k-1 training folds, and not to the validation fold
search = RandomizedSearchCV(
    pipeline, grid, scoring="f1", n_iter=1, n_jobs=-1, cv=kf
).fit(train_x, train_y)

best_score = search.best_score_
best_params = {
    key.replace("rf__", ""): value for key, value in search.best_params_.items()
}

print(f"Best Tuning F1 Score: {best_score}")
print(f"Best Tuning Params:   {best_params}")

# EVALUTING BEST MODEL ON TEST SET

best_model = RandomForestClassifier(**best_params).fit(train_x, train_y)

accuracy = best_model.score(test_x, test_y)

test_pred = best_model.predict(test_x)
tn, fp, fn, tp = confusion_matrix(test_y, test_pred).ravel()
conf_mat = pd.DataFrame(
    {"Model (0)": [tn, fn], "Model (1)": [fp, tp]}, index=["Actual (0)", "Actual (1)"],
)

classif_report = classification_report(test_y, test_pred)

feature_importance = pd.DataFrame(
    {"feature": list(train_x.columns), "importance": best_model.feature_importances_}
).sort_values("importance", ascending=False)

print(f"Accuracy: {round(accuracy * 100, 2)}%")
print("")

print(conf_mat)
print("")

print(classif_report)
print("")

pd.set_option("display.max_rows", len(feature_importance))
print(feature_importance)
pd.reset_option("display.max_rows")

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)

仅在训练折叠上使用 sklearn 的 RandomizedSearchCV 和 SMOTE 过采样的相关文章

使用 JPype - 如何访问 JDBC 元数据函数

我在用着杰德贝API https launchpad net jaydebeapi它使用 JPype 加载 FileMaker 的 JDBC 驱动程序并提取数据但我也希望能够获取所有表的列表在数据库中 In the JDBC 文档 ht
Firefox 中的文件下载对话框

我正在使用firefox进行selenium python编程自动开始下载并保存文件我已经完成了所有操作但无法下载csv文件我的python版本是2 6 6 我的selenium版本是最新版本我也尝试使用以下链接即 fp web
Native TF 与 Keras TF 性能比较

我使用本机和后端张量流创建了完全相同的网络但在使用多个不同参数进行了多个小时的测试后仍然无法弄清楚为什么 keras 优于本机张量流并产生更好稍微但更好的结果 Keras 是否实现了不同的权重初始化方法或者执行除 tf train
Python 错误：将 statsmodels 与一行数据一起使用时，对象的 len() 未调整大小

我可以使用 statsmodel 的 WLS 加权最小二乘回归 http statsmodels sourceforge net devel generated statsmodels regression linear model WLS
如何使用 django Rest 框架保存多对多字段对象

我有博客发布标签三个模型在博客模型中我将字段 postedin 作为发布模型的外键将标签作为标签模型的许多字段模型 py class Posted models Model name models CharField Pos
如何使用格式保存 Tkinter 文本小部件的内容

我在 python 中使用 Tkinter 在文本窗口中显示输出我发现使用 get 功能我可以从此窗口检索文本内容但我有用不同背景颜色标记的文本部分是否可以将内容与这些颜色一起复制到文件例如 html 或 doc 中没有对你想要的
如何使用Peewee查询多个相似的数据库？

我遇到了使用 Peewee 查询多个数据库的问题我有 2 个现有的 mysql 数据库让我们将它们命名为 A 和 B 结构相似因为它是两个 Bugzilla 数据库我使用 Pwiz 生成模型 modelsA py 和 modelsB
统计Sweep算子的Python实现

我正在学习一些用书中缺失的数据进行统计的技术缺失数据的统计分析作者利特尔和鲁宾对于处理单调无响应数据来说一个特别有用的函数是扫频操作员详情见第 148 151 页我知道 R 模块gmm有swp函数可以做到这一点但我想知道是否有
django-allauth：电子邮件确认

我已经设置了 django allauth 并在新用户注册时使用电子邮件确认效果很好但在确认电子邮件中我得到 Hello from example com You re receiving this e mail because us
NumPy 根据另一个数组中的值对第三个数组中的每个匹配元素求和一个数组

我有两个 numpy 数组一个包含值另一个包含每个值类别 values np array 1 2 3 4 5 6 7 8 9 10 valcats np array 101 301 201 201 102 302 302 202 102
如何在solidpython中设置特殊变量$fa、$fs、$fn

in 上一个线程 https stackoverflow com questions 54040390 how to save data in stl file after python solid processing显示了如何通过 So
Python 中的 Firebase 身份验证时出现 KeyError：“databaseURL”

相信你做得很好我是 firebase 的新手正在尝试进行用户身份验证我已经安装了pyrebase4并在firebase控制台上创建了一个项目我还启用了使用电子邮件和密码登录并尝试连接我的应用程序下面是我正在尝试的代码 impo
Python：两个列表之间的成对比较：列表 a >= 列表 b？

如果我想检查列表中的所有元素 a 1 2 3 6 大于或等于另一个列表中对应的元素 b 0 2 3 5 如果 a i gt b i 对于所有i的则返回 true 否则返回 false 这有逻辑功能吗比如a gt b 谢谢你可以这样做
获取列的 [0, x] 元素的最小值

我需要计算一列其中值是对其他列进行矢量化运算的结果 df new col df col1 min 0 df col2 然而事实证明我不能像上面的语法一样使用 min 那么获得 pandas 列的零和给定值之间的最小值的正确方法是什么
检查图像中是否有太薄的区域

我正在尝试验证雕刻机的黑白图像更多的是剪贴画图像不是照片我需要考虑的主要事情之一是区域的大小或线条的宽度因为机器无法处理太细的线条所以我需要找到比给定阈值更细的区域以此图为例竖琴的琴弦可能太细而无法雕刻我正在阅读有关 Ma
如何动态选择要在flask中使用的模板目录？

默认情况下 Flask 使用存储在 template 目录中的模板文件 flaskapp application py templates hello html 有没有办法根据登录的用户动态选择模板目录这就是我想要的目录结构 flaska
Hoare Partitioning算法讲解

根据许多网站给出的伪代码我写了这个Hoare分区算法它采用一个数组根据给定的主元来分区子数组的开始和结束索引它工作得很好但是有人可以解释一下逻辑它是如何做到这一点的吗这是代码 def hoare arr start end p
Pandas 数据框可对多列和要列出的值进行字典

我有一个数据框 id key a1 1 a2 1 a3 1 a4 2 a5 2 a6 3 我想创建一本字典key作为机器号并且id列作为列表 like 1 a1 a2 a3 2 a4 a5 3 a6 我可以先使用 groupby 然后再使
Paramiko ValueError“p 的长度必须恰好为 1024、2048 或 3072 位”

我正在尝试使用 Python 脚本连接 SFTP 由于 p 错误我无法连接 import paramiko client paramiko SSHClient client load system host keys client con
我可以以某种方式“编译”一个Python脚本以在没有安装Python的PC上运行吗？

所以我有一个Python脚本 myscript py 我是这样执行的 python D myscript py 但是我必须安装 Python 并将其包含在PATH使其工作的环境变量是否有可能以某种方式将 Python 可执行文件与 Py

随机推荐

如何在 Node.js 插件中泵送窗口消息？

在 Windows Nodejs 插件中我创建了一个窗口来接收消息 Handle
将相同的运算符专门用于不同的特征

我想通过特征进行专业化来执行以下操作 Array Aa Scalar in a会使用overload I Array Aa Array Bb会使用overload II 在下面的代码中 overload II永远不会习惯有人提到过T1不能
如何等待蓝鸟承诺在多个地点定居？

我遇到的情况是一堆函数需要等待承诺解决因为它是 init 函数 self init new Promise function resolve do stuff take awhile resolve 但是当它正在初始化时异步性质意味
Linq - 获取数组最后一个非零数的索引

是否有一个 Linq 表达式返回数组中最后一个非零值的索引我对扩展不感兴趣只对简单的 linq 表达式感兴趣我正在想象这样的伪代码 int index 0 2 1 LastOrDefaultAt i gt i gt 0 返回值应该是2
如何在 django 中使用 json.dumps 方法加载保存的数据

模型 py class History models Model user models ForeignKey User on delete models SET NULL blank True study models ForeignKe
使用比较器函数进行排序

因此我正在使用一些预先存在的比较器来比较两个元组中的某些值如果第一个大于第二个则返回 true 否则返回 false 这是其中之一的代码 def cmpValue subInfo1 subInfo2 Returns True if va
显式空检查与空合并运算符的编译器评估？

考虑下面的代码它使用了两个slightly不同的检查方法 instance并在尚未设置时分配它 class InstantiationTest private Object instance public void Method1 if
如何在 Android 中设置自定义闹钟铃声

我需要在我的应用程序中设置自定义闹钟铃声谁能告诉我如何设置自定义铃声或 Mp3 作为闹钟任何形式的帮助将不胜感激这也是这个问题的解决方案将音频文件设置为铃声 https stackoverflow com questions 460
UITextView 动画视图后内容偏移不良

我有一个 UITextView 位于视图底部当用户点击它时我需要将视图动画放大 150 像素我在用着 void textViewDidBeginEditing UITextView textView and void textView
R 中的条件计数和分组依据

我想计算每个有多少行type如果他们满足条件x 0 有点像 SQL 中的 group by 这是数据的示例 type x search 0 NULL 0 public 0 search 1 home 0 home 1 search 0 我假
c atoi() 在 Linux 上用于宽字符？

Linux 上是否有与宽字符等效的 c atoi 我可以找到 MS wtoi 的东西但我可以在标准 Linux 库中找到任何东西您可以使用wcstol http www gnu org s libc manual html node P
如果控制台应用程序需要 root 权限，它如何在 OS X 下对自身进行 sudo？ [关闭]

Closed 这个问题是无关 help closed questions 目前不接受答案我想知道命令行应用程序是否可以请求根访问权限例如尝试使用sudo 我正在寻找一种解决方案允许编写需要的应用程序sudo如果需要的话可以享受特权
持有 Singleton 引用的活动会泄漏内存吗？

如果我有这样的代码 public class MyActivity extends Activity private SingletonClass singletonInstance Override protected void onCr
Weka：如何在 java 中获取测试实例的预测值？

我已经成功训练了一个分类器 bayesnet 并构建了一个测试集 ARFF 格式该测试集有一个实例有一个缺失值 Evaluation eTest new Evaluation trainingInstance eTest evaluat
Typescript 和 JQuery 编译错误：找不到名称“$”

我正在使用 jquery 测试 typescript 但是当我编译 test ts 文件时它总是给我一个错误指示找不到名称我已经导入了 jquery 并添加了它的定义参考如果我使用import require jquery in
如何使用 XElement 在 C# 中序列化带有 List 的对象？

我有不同类型成员的对象如下所示 public class MyObject public string Str1 string Empty public MyEnums Enum1 E1 MyEnums Enum1 Unknown pub
python中html解析和网络爬行有多大区别[关闭]

Closed 这个问题需要多问focused help closed questions 目前不接受答案我需要从 django 网站中的网站获取一些数据现在我很困惑是否应该使用 python 解析库或网络爬行库搜索引擎库也属于同一类别
未找到获取命令：rasa 使用 rasa 命令

我已经安装了rasa using pip3 install rasa 当我尝试使用时rasa命令如 rasa init 我收到 zsh 错误找不到命令 rasa 错误我在 Mac OS Catalina 上使用 Python版本2 7
将 Mayavi 安装到 Anaconda 中

我想将 Mayavi 安装到我的 anaconda 安装中因为我运行了以下命令但收到一条错误消息我不知道如何处理 user Kubuntu source activate myenv myenv user Kubuntu conda
仅在训练折叠上使用 sklearn 的 RandomizedSearchCV 和 SMOTE 过采样

我有一个高度不平衡的数据集 99 5 0 5 我想使用以下命令对随机森林模型执行超参数调整sklearn s RandomizedSearchCV 我希望使用 SMOTE 对每个训练折叠进行过采样然后在最终折叠上评估每个测试保持原始分布

仅在训练折叠上使用 sklearn 的 RandomizedSearchCV 和 SMOTE 过采样

仅在训练折叠上使用 sklearn 的 RandomizedSearchCV 和 SMOTE 过采样 的相关文章

随机推荐

热门标签

仅在训练折叠上使用 sklearn 的 RandomizedSearchCV 和 SMOTE 过采样的相关文章