sklearn RandomForestClassifier 与 auc 方法中 ROC-AUC 分数的差异

2024-03-20

我分别从 sklearn 的 RandomForestClassifier 和 roc_curve、auc 方法收到不同的 ROC-AUC 分数。

以下代码得到了 0.878 的 ROC-AUC（即 gs.best_score_）：

def train_model(mod = None, params = None, features = None, 
        outcome = ...outcomes array..., metric = 'roc_auc'):
    gs = GridSearchCV(mod, params, scoring=metric, loss_func=None, score_func=None, 
        fit_params=None, n_jobs=-1, iid=True, refit=True, cv=10, verbose=0, 
        pre_dispatch='2*n_jobs', error_score='raise')
    gs.fit(...feature set df..., outcome)

    print gs.best_score_
    print gs.best_params_

    return gs

model = RandomForestClassifier(random_state=2000, n_jobs=-1)
features_to_include = [...list of column names...]

parameters = {
            'n_estimators': [...list...], 'max_depth':[...list...],
            'min_samples_split':[...list...], 'min_samples_leaf':[...list...]
            }

gs = train_model(mod = model, params = parameters, features = features_to_include)

然而，以下代码使我的 ROC-AUC 为 0.97：

fpr = dict()
tpr = dict()
roc_auc = dict()
fpr['micro'], tpr['micro'], _ = roc_curve(...outcomes array..., 
                                    gs.predict_proba(...feature set df...)[:, 1])
roc_auc['micro'] = auc(fpr['micro'], tpr['micro'])

为什么会有这样的差异呢？我的代码做错了什么吗？

谢谢！克里斯

它们会返回不同的值，原因有两个：

自从GridSearchCV方法将您的数据分为 10 组（您在代码中进行 10 倍交叉验证），使用 9 进行训练，并报告最后一组的 AUC。您获得的 best_score_ 只是报告的最高 AUC（更多信息请阅读here http://scikit-learn.org/stable/modules/generated/sklearn.grid_search.GridSearchCV.html#sklearn.grid_search.GridSearchCV). Your roc_curve计算报告整个集合的 AUC。
默认交叉验证roc_auc是宏版本（参见here http://scikit-learn.org/stable/modules/generated/sklearn.metrics.roc_auc_score.html#sklearn.metrics.roc_auc_score），但您稍后的计算会计算微型版本。

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)

scikitlearn

RandomForest

ROC

AUC

sklearn RandomForestClassifier 与 auc 方法中 ROC-AUC 分数的差异的相关文章

MiniBatchKMeans OverflowError：无法将浮点无穷大转换为整数？

我正在尝试找到正确数量的簇 k 根据轮廓分数使用sklearn cluster MiniBatchKMeans from sklearn cluster import MiniBatchKMeans from sklearn feature
借助 AWS SageMaker，是否可以使用 sagemaker SDK 部署预先训练的模型？

我试图避免将现有模型训练过程迁移到 SageMaker 并避免创建自定义 Docker 容器来托管我们训练过的模型我的希望是将我们现有的经过训练的模型注入到 AWS 通过以下方式提供的预构建的 scikit learn 容器中 sage
没有预测器的 Sklearn 回归

是否可以在 sklearn 中使用或不使用即仅使用截距预测器来运行回归例如逻辑回归这似乎是一个相当标准的类型分析也许这些信息已经在输出中可用我发现的唯一相关的事情是sklearn svm l1 min c但这会返回一个非空模型
VotingClassifier：不同的功能集

在我的例子中我有两个不同的功能集因此行数相同且标签相同 DataFrames df1 A B C 1 4 2 1 4 8 2 1 1 2 3 0 3 2 5 df2 E F 6 1 1 3 8 1 2 8 5 2 labels lab
如何将稀疏矩阵拆分为训练集和测试集？

我想了解如何使用稀疏矩阵我有这段代码可以生成多标签分类数据集作为稀疏矩阵 from sklearn datasets import make multilabel classification X y make multilabel cl
sklearn中score和accuracy_score的区别

有什么区别score 中的方法sklearn naive bayes GaussianNB 模块和accuracy score中的方法sklearn metrics模块两者看起来都是一样的那是对的吗一般来说不同的模型具有返回不同指标
Python 中带有大稀疏矩阵的 kNN

我有两个大的稀疏矩阵 In 3 trainX Out 3 lt 6034195x755258 sparse matrix of type
Python：UnicodeDecodeError：“utf8”编解码器无法解码字节

我正在将一堆 RTF 文件读入 python 字符串中在某些文本上我收到此错误 Traceback most recent call last File 11 08 py line 47 in
没有循环匹配指定的签名和转换错误

我是 python 和机器学习的初学者当我尝试将数据放入 statsmodels formula api OLS fit 时出现以下错误回溯最近一次调用最后一次文件第 47 行位于 regressor OLS sm OLS y
将 OneClassSVM 与 GridSearchCV 结合使用

我正在尝试在 OneClassSVM 上执行 GridSearchCV 函数但我似乎无法找到 OCSVM 的正确评分方法根据我收集的信息像 OneClassSVM score 这样的东西不存在因此 GridSearchCV 中没有所
ValueError: n_splits=10 不能大于每个类中的成员数

我正在尝试运行以下代码 from sklearn model selection import StratifiedKFold X hey join now hello join today join us now not today jo
使用基于 ConvLSTM2D 的 Keras 模型从较低分辨率图像估计高分辨率图像

我正在尝试使用以下内容ConvLSTM2D从低分辨率图像序列估计高分辨率图像序列的架构 import numpy as np scipy ndimage matplotlib pyplot as plt from keras models
导入错误：无法导入名称“_print_elapsed_time”

你好我正在尝试使用 sklearn 中的 make pipeline 模块但是当我尝试使用以下命令导入它时 from sklearn pipeline import make pipeline 我收到此错误 ImportError ca
R 中多类分类的 ROC 曲线

我有一个包含 6 个类别的数据集我想绘制多类别分类的 ROC 曲线 Achim Zeileis 给出的第一个答案非常好 R中使用rpart包的ROC曲线 https stackoverflow com questions 30818188
我的 R 平方分数为负，但使用 k 倍交叉验证的准确度分数约为 92%

对于下面的代码我的 r 平方分数为负但使用 k 折交叉验证的准确度分数为 92 这怎么可能我使用随机森林回归算法来预测一些数据数据集的链接在下面的链接中给出 https www kaggle com ludobenistant hr
R 中使用 randomForest 进行内存高效预测

TL DR我想知道使用基于大型数据集数百个特征数十万行构建的随机森林模型执行批量预测的内存有效方法 Details 我正在处理一个大型数据集内存中超过 3GB 并且想要使用以下方法进行简单的二进制分类randomForest 由于我
为什么 cross_val_predict 比 KNeighborsClassifier 的拟合慢得多？

在 Jupyter 笔记本上本地运行并使用 MNIST 数据集 28k 条目每个图像 28x28 像素以下内容为27秒 from sklearn neighbors import KNeighborsClassifier knn clf
Python 上每个系数具有特定约束的多元线性回归

我目前正在数据集上运行多元线性回归起初我没有意识到我需要限制自己的体重事实上我需要有特定的正权重和负权重更准确地说我正在做一个评分系统这就是为什么我的一些变量应该对音符产生积极或消极的影响然而当运行我的模型时结果不符合我
如何使用 Scikit-Learn 和 Python 找到最佳簇数

我正在学习聚类Pythons scikit learnlib 但我找不到找到最佳簇数的方法我试图制作一个集群数量列表并将其传递进去for loop 并看到elbow但我想找到更好的解决方案只有当我这样做时这种方法才有效range 1
如何在 scikit 中加载 CSV 数据并将其用于朴素贝叶斯分类

尝试加载自定义数据以在 Scikit 中执行 NB 分类需要帮助将示例数据加载到 Scikit 中然后执行 NB 如何加载目标的分类值使用相同的数据进行训练和测试或使用完整的数据集进行测试 Sl No Member ID Membe

随机推荐

应用程序安装失败 - INSTALL_FAILED_VERIFICATION_FAILURE

开始了一个新项目并且this https gyazo com 08cf38899348817b28ec2b2978561d92发生在我身上我在用Genymotion作为我的模拟器不确定是什么导致了这个问题我试过重建项目确保我有足
表格布局中的单选按钮组与列对齐

我正在开发一个反馈应用程序其布局应与此屏幕类似 1 https i stack imgur com xn3kh jpg https i stack imgur com xn3kh jpg 我已经设计了布局的xml
在 Spring boot 中设置 hibernate fetch size

如何在Spring boot应用程序中设置hibernate jdbc fetch size属性可以将其设置到application properties中吗您应该使用前缀spring jpa properties 查看官方文档here
C++ lambda 将捕获作为函数指针

我正在研究 C lambda 及其到函数指针的隐式转换我的起始示例是使用它们作为 ftw 函数的回调这按预期工作 include
在 kotlin 中使用比较器

我是 kotlin 新手如何使用比较对象Collections Collections sort list myCustomComparator 我们怎样才能写一个MyCustomComparator科特林中的方法 private fin
印刷撇号 + 宽字符串文字破坏了我的 wofstream (C++)

我刚刚在处理不祥的印刷撇号时遇到了一些奇怪的行为而不是打字机撇号与宽字符串文字一起使用时撇号会破坏 wofstream 这段代码有效 ofstream file test txt file lt lt A B file close
将对象作为参数发送给分叉的 Nodejs 进程

Having fork MyProcess js foo 在主流程中和console log process argv 2 在分叉进程中将记录foo到我的控制台然而 fork MyProcess js myProp bar 在主流程中和c
颜色条最小值和最大值

如何手动更改绘图中颜色条的最小值和最大值例如如何将下图中颜色条的最小值设置为 0 import plotly express as px import numpy as np df px data gapminder query yea
将结果写入同一 Excel 文件中的 2 个不同工作表中

你能教我Python是否可以写入同一个Excel文件但2个不同的电子表格选项卡举例来说我想挑选并写入以下4个网站的标题并将它们写入同一个文件title xls中但分别写入其Sheet1和Sheet 2中 www dailynew
jQuery - 从值数组中按值选择元素

给出一些简单的 JSON 62689 62690 62697 我需要在 DOM 中选择与这些值相对应的三个元素基于value属性他们可能是一个
处理存储在配置文件中的变量的最佳实践是什么？

如果我使用配置文件来存储例如站点名称数据库主机等处理此问题的最佳实践是什么 sitename stackoverflow com 然后在函数中设置全局 sitename DEFINE SITENAME stackoverflow com
wxWidgets的EVT_CHAR_HOOK有什么作用？

我正在维护一个 wxWidgets C 应用程序它使用 EVT CHAR HOOK 来捕获高级窗口中的关键事件我找不到此事件的任何真实文档但我可以推测它以某种优先于标准关键事件的方式拦截关键事件我刚刚发现的一件令人不安的事情是
Angular2 使用 ngFor 绑定数组

我使用的是 angular2 在我的表单中我通常创建一个模型类并将我的对象与表单绑定然后通过 this myObject 进行访问 div class form group div
spring data redis主从配置

以下是我的 jedis 配置 Bean public JedisConnectionFactory getJedisConnectionFactory JedisConnectionFactory jedisConnectionFactor
从包含多个文档的语料库中删除行

我的语料库中有 4000 个文本文档作为数据清理的一部分我想从每个文档中删除包含特定单词的行例如 library tm doc corpus lt VCorpus DirSource C TextMining Prototype pa
iOS 13中的prefersStatusBar隐藏问题

大家好我想隐藏我的状态栏 in a View Controller但它似乎不起作用我使用了该功能 override var prefersStatusBarHidden Bool return true 我还设置了View contro
Parse Javascript SDK -- 将客户端 `user` 保存为服务器端 ` Parse.User.current()`

我可能在概念上做错了事情所以请告诉我我是否错了我正在使用 Parse 的 Facebook 登录来登录用户客户端然后我尝试发布这个user object到我的服务器这样我就可以在服务器端拥有该用户对象但我在文档中找不到与此相关的任
xcode swift 如何分割图像？

我正在使用 Swift 2 0 我想将图像分割成多个部分我知道这是重复的但它们的语法很旧我在更新时遇到问题 update Xcode 8 2 1 斯威夫特 3 0 2 您可以添加此扩展来分割图像 extension UIImage v
ng 升级命令将 cli 从 v7 升级到 v8 失败

用于将 cli 版本从 v7 项目更新到 v8 的 ng Upgrade 命令失败首先手动尝试升级 cli 也会失败 ng update angular cli 您的全局 Angular CLI 版本 8 0 1 高于您的本地版本版本
sklearn RandomForestClassifier 与 auc 方法中 ROC-AUC 分数的差异

我分别从 sklearn 的 RandomForestClassifier 和 roc curve auc 方法收到不同的 ROC AUC 分数以下代码得到了 0 878 的 ROC AUC 即 gs best score def tra

sklearn RandomForestClassifier 与 auc 方法中 ROC-AUC 分数的差异

sklearn RandomForestClassifier 与 auc 方法中 ROC-AUC 分数的差异 的相关文章

随机推荐

热门标签

sklearn RandomForestClassifier 与 auc 方法中 ROC-AUC 分数的差异的相关文章