为什么我不能得到与 GridSearchCV 相同的结果？

2024-04-10

GridSearchCV只返回每个参数化的分数，我还希望看到 Roc 曲线以更好地理解结果。为了做到这一点，我想采用性能最好的模型GridSearchCV并重现这些相同的结果，但缓存概率。这是我的代码

import numpy as np
import pandas as pd
from sklearn.datasets import make_classification
from sklearn.decomposition import PCA
from sklearn.ensemble import RandomForestClassifier
from sklearn.linear_model import LogisticRegression
from sklearn.feature_selection import SelectFromModel
from sklearn.metrics import roc_auc_score
from sklearn.model_selection import GridSearchCV
from sklearn.model_selection import StratifiedKFold
from sklearn.pipeline import Pipeline
from tqdm import tqdm

import warnings
warnings.simplefilter("ignore")

data = make_classification(n_samples=100, n_features=20, n_classes=2, 
                           random_state=1, class_sep=0.1)
X, y = data


small_pipe = Pipeline([
    ('rfs', SelectFromModel(RandomForestClassifier(n_estimators=100))), 
    ('clf', LogisticRegression())
])

params = {
    'clf__class_weight': ['balanced'],
    'clf__penalty'     : ['l1', 'l2'],
    'clf__C'           : [0.1, 0.5, 1.0],
    'rfs__max_features': [3, 5, 10]
}
key_feats = ['mean_train_score', 'mean_test_score', 'param_clf__C', 
             'param_clf__penalty', 'param_rfs__max_features']

skf = StratifiedKFold(n_splits=5, random_state=0)

all_results = list()
for _ in tqdm(range(25)):
    gs = GridSearchCV(small_pipe, param_grid=params, scoring='roc_auc', cv=skf, n_jobs=-1);
    gs.fit(X, y);
    results = pd.DataFrame(gs.cv_results_)[key_feats]
    all_results.append(results)


param_group = ['param_clf__C', 'param_clf__penalty', 'param_rfs__max_features']
all_results_df = pd.concat(all_results)
all_results_df.groupby(param_group).agg(['mean', 'std']
                    ).sort_values(('mean_test_score', 'mean'), ascending=False).head(20)

这是我重现结果的尝试

small_pipe_w_params = Pipeline([
    ('rfs', SelectFromModel(RandomForestClassifier(n_estimators=100), max_features=3)), 
    ('clf', LogisticRegression(class_weight='balanced', penalty='l2', C=0.1))
])
skf = StratifiedKFold(n_splits=5, random_state=0)
all_scores = list()
for _ in range(25):
    scores = list()
    for train, test in skf.split(X, y):
        small_pipe_w_params.fit(X[train, :], y[train])
        probas = small_pipe_w_params.predict_proba(X[test, :])[:, 1]
        # cache probas here to build an Roc w/ conf interval later
        scores.append(roc_auc_score(y[test], probas))
    all_scores.extend(scores)

print('mean: {:<1.3f}, std: {:<1.3f}'.format(np.mean(all_scores), np.std(all_scores)))

我多次运行上述命令，因为结果似乎不稳定。我创建了一个具有挑战性的数据集，因为我自己的数据集同样难以学习。 groupby 旨在进行所有迭代GridSearchCV并对训练和测试分数进行平均和标准差以稳定结果。然后，我挑选出性能最佳的模型（在我最近的模型中，C=0.1、penalty=l2 和 max_features=3），并在故意放入这些参数时尝试重现这些相同的结果。

The GridSearchCV模型产生 0.63 平均值和 0.042 std roc 分数，而我自己的实现得到 0.59 平均值和 std 0.131 roc 分数。网格搜索得分要好得多。如果我对 GSCV 和我自己的实验进行 100 次迭代，结果是相似的。

为什么这些结果不一样？他们都在内部使用StratifiedKFold()当提供 cv 的整数时......也许GridSearchCV按折叠大小对分数进行加权？我不确定这一点，但这是有道理的。我的实施有缺陷吗？

edit: random_state添加到 SK 折叠

如果您设置了 random_state 的RandomForestClassifier，不同之间的差异girdsearchCV将被淘汰。

为了简单起见，我设置了 n_estimators =10 并得到以下结果

                                                             mean_train_score           mean_test_score
param_clf__C    param_clf__penalty  param_ rfs_max_features       mean        std     mean          std         
        1.0      l2                   5 0.766701    0.000000    0.580727    0.0  10 0.768849    0.000000    0.577737    0.0

现在，如果查看每个拆分的性能（通过删除key_feats过滤）最佳超参数，使用

all_results_df.sort_values(('mean_test_score'), ascending=False).head(1).T

我们将得到

    16
mean_fit_time   0.228381
mean_score_time 0.113187
mean_test_score 0.580727
mean_train_score    0.766701
param_clf__C    1
param_clf__class_weight balanced
param_clf__penalty  l2
param_rfs__max_features 5
params  {'clf__class_weight': 'balanced', 'clf__penalt...
rank_test_score 1
split0_test_score   0.427273
split0_train_score  0.807051
split1_test_score   0.47
split1_train_score  0.791745
split2_test_score   0.54
split2_train_score  0.789243
split3_test_score   0.78
split3_train_score  0.769856
split4_test_score   0.7
split4_train_score  0.67561
std_fit_time    0.00586908
std_score_time  0.00152781
std_test_score  0.13555
std_train_score 0.0470554

让我们重现这个！

skf = StratifiedKFold(n_splits=5, random_state=0)
all_scores = list()

scores = []
weights = []


for train, test in skf.split(X, y):
    small_pipe_w_params = Pipeline([
                ('rfs', SelectFromModel(RandomForestClassifier(n_estimators=10, 
                                                               random_state=0),max_features=5)), 
                ('clf', LogisticRegression(class_weight='balanced', penalty='l2', C=1.0,random_state=0))
            ])
    small_pipe_w_params.fit(X[train, :], y[train])
    probas = small_pipe_w_params.predict_proba(X[test, :])
    # cache probas here to build an Roc w/ conf interval later
    scores.append(roc_auc_score(y[test], probas[:,1]))
    weights.append(len(test))

print(scores)
print('mean: {:<1.6f}, std: {:<1.3f}'.format(np.average(scores, axis=0, weights=weights), np.std(scores)))

[0.42727272727272736, 0.47, 0.54, 0.78, 0.7]
平均值：0.580727，标准差：0.135

Note: mean_test_score不仅仅是简单的平均数，它是加权平均数。原因是iid param

From 文档 https://scikit-learn.org/stable/modules/generated/sklearn.model_selection.GridSearchCV.html#sklearn.model_selection.GridSearchCV:

iid :布尔值，默认='警告' 如果为真，则返回平均分折叠，根据每个测试集中的样本数量进行加权。在这个情况下，假设数据均匀分布在折叠，最小化的损失是每个样本的总损失，而不是跨折痕的平均损失。如果为 False，则返回平均分穿过褶皱。默认为True，但在版本中会更改为False 0.21，对应交叉验证的标准定义。

版本0.20更改：参数iid将从True更改为False 在0.22版本中默认存在，在0.24版本中将被删除。

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)

为什么我不能得到与 GridSearchCV 相同的结果？的相关文章

使用 Python 创建 MIDI

本质上我正在尝试从头开始创建 MIDI 并将它们放到网上我对不同的语言持开放态度但更喜欢使用Python 两种语言之一如果这有什么区别的话并且想知道我应该使用哪个库提前致谢看起来这就是您正在寻找的适用于 Python 的简单
如何使用 colorchecker 在 opencv 中进行颜色校准？

我有数码相机获取的色彩检查器图像我如何使用它来使用 opencv 校准图像按照以下颜色检查器图像操作您是想问如何进行颜色校准或如何使用 OpenCV 进行校准为了进行颜色校准您可以使用校准板的最后一行灰色调以下是您应该逐步进行
在 python 3 中使用子进程

我使用 subprocess 模块在 python 3 中运行 shell 命令这是我的代码 import subprocess filename somename py in practical i m using a real fil
如何在VIM中设置文件的正确路径？

每当我击中 pwd在 vim 中命令总是返回路径C Windows system32 即使我在桌面上的 Python 文件中所以每当我跑步时 python 命令返回 python can t open file Users myname
编辑 Jupyter Notebook 时 VS Code 中缺少“在选择中查找”

使用 Jupyter Notebook 时 VSCode 中缺少在选择中查找按钮它会减慢开发速度所以我想请问有人知道如何激活它吗第一张图显示了在 python 文件中的搜索替换第二张图显示了笔记本电脑中缺少的按钮 Python
如何根据 HTTP 请求使用 Python 和 Flask 执行 shell 命令并流输出？

下列的这个帖子 https stackoverflow com questions 15092961 how to continuously display python output in a webpage 我能够tail f网页的日志
揭秘sharedctypes性能

在 python 中可以在多个进程之间共享 ctypes 对象然而我注意到分配这些对象似乎非常昂贵考虑以下代码 from multiprocessing import sharedctypes as sct import ctypes
如何使用 Bokeh 动态隐藏字形和图例项

我正在尝试在散景中实现复选框其中每个复选框应显示隐藏与其关联的行我知道可以通过图例来实现这一点但我希望这种效果同时在两个图中发生此外图例也应该更新在下面的示例中出现了复选框但不执行任何操作我显然不明白如何更新用作源的数据
如何从 JSON 响应重定向？

所以我尝试使用 Flask 和 Javascript 上传器 Dropzone 上传文件并在上传完成后重定向文件上传正常但在烧瓶中使用传统的重定向 return redirect http somesite com 不执行任何操作页面
Python Django-如何从输入文件标签读取文件？

我不想将文件保存在我的服务器上我只想在下一页中读取并打印该文件现在我有这个 index html
迭代列表的奇怪速度差异

我创建了两个重复两个不同值的长列表在第一个列表中值交替出现在第二个列表中一个值出现在另一个值之前 a1 object object 10 6 a2 a1 2 a1 1 2 然后我迭代它们不对它们执行任何操作 for in a1 p
为什么我应该使用 WSGI？

使用 mod python 一段时间了我读了越来越多关于 WSGI 有多好的文章但没有真正理解为什么那么我为什么要切换到它呢有什么好处这很难吗学习曲线值得吗为了用 Python 开发复杂的 Web 应用程序您可能会使用更全面
使用 pybtex 将 bibtex 转换为格式化的 HTML 参考书目，例如哈佛风格

我正在使用 Django 并将 bibtex 存储在我的模型中并且希望能够以格式化 HTML 字符串的形式向我的视图传递引用使其看起来像哈佛引用样式使用中描述的方法Pybtex 无法识别 bibtex 条目 https stackov
使用 NLP 进行地址分割

我目前正在开发一个项目该项目应识别地址的每个部分例如来自 str Jack London 121 Corvallis ARAD ap 1603 973130 输出应如下所示 street name Jack London no 121
字符串列表，获取n个元素的公共子串，Python

我的问题可能类似于this https stackoverflow com questions 37514193 count the number of occurrences of n length not given string in
导入错误：无法导入名称“时间戳”

我使用以下代码在 python 3 6 3 中成功安装了 ggplot conda install c conda forge ggplot 但是当我使用下面的代码将其导入笔记本时出现错误 from ggplot import Impor
[cocos2d-x]当我尝试在 Windows 10 中运行“python android-build.py -p 19 cpp-tests”时出现错误

当我尝试运行命令时python android build p cpp tests 我收到如图所示的错误在此之前我收到了另一条关于 Android SDK Tools 版本兼容性的错误消息所以我只是将 sdk 版本从 26 0 0
如何使用Python保存“完整的网页”而不仅仅是基本的html

我正在使用以下代码来使用 Python 保存网页 import urllib import sys from bs4 import BeautifulSoup url http www vodafone de privat tarife r
使用Multiprocessing和Pool时如何访问全局变量？

我试图避免将变量冗余地传递到dataList e g 1 globalDict 2 globalDict 3 globalDict 并在全球范围内使用它们 global globalDict然而在下面的代码中并不是这样做的解决方案是否有
python 中的 after() 与 update()

我是 python 新手开始使用 tkinter 作为画布到目前为止我使用 update 来更新我的画布但还有一个 after 方法谁能给我解释一下这个函数请举个例子两者之间有什么区别 root after integer c

随机推荐

ManualResetEvent 处于等待状态时会消耗 cpu 吗？

更具体地说上下文切换的性能下降是否适用于处于等待状态的线程在什么条件或情况下 ManualResetEvent 或 WaitHandle 可能会消耗资源 ManualResetEvent 没有等待状态唯一可以等待 MRE 的是thre
在 scikit-learn Pipeline 中插入或删除步骤

是否可以删除或插入步骤sklearn pipeline Pipeline object 我正在尝试在 Pipeline 对象中有或没有一步进行网格搜索想知道我是否可以在管道中插入或删除一个步骤我看到在Pipeline源代码有一个sel
从 eclipse 的内部浏览器打开网站？

谁能帮助我从 Eclipse 的内部嵌入式浏览器中打开网页我正在与浏览器并行运行 Linux 平铺窗口管理器和 Eclipse 3 7 2 这很痛苦我希望它能够轻松地从我的代码中读取需求同时读取代码这可能是超级用户的问题但它
mocha done() 和 async wait 的矛盾问题

我有以下测试用例 it should pass the test async function done await asyncFunction true should eq true done 运行它断言错误解决方法指定过多指定回调
是否可以在 Monotouch 中使用 NSZombieEnabled？

我一直在阅读有关环境变量的信息NSZombieEnabled http www cocoadev com index pl NSZombieEnabled我想知道目前是否可以在 Monotouch 运行时中使用它如果没有是否有合适的替代
以编程方式设置打印机功能

我正在开发一个 C 桌面应用程序我需要更改一些打印机设置并打印一些图片在我的程序中我已经可以设置纸张尺寸打印机名称等如果我进入打印机首选项的高级选项有一个名为打印机功能的部分我不知道如何访问打印机设置中的参数例如有边
sudoers 是世界可写错误[关闭]

Closed 这个问题是无关 help closed questions 目前不接受答案我更改了 Ubuntu 12 10 上的 ect 文件权限以便我可以编辑 bash bashrc 以便 Neo4j 可以看到 JVM 但现在当我尝试
ORACLE MINUS 关键字的 ANSI SQL 标准

我有一个查询我想要与 ANSI SQL 标准兼容在这个使用 oracle 查询 MINUS key work 我想要 ANSI SQL 这是放置于 MINUS 关键字 SELECT F selected UPPER a busine
Angular-UI 路由器：嵌套视图不起作用

构建多步骤表单向导原来是在关注本教程 https scotch io tutorials angularjs multi step form using ui router 效果很好但我现在正在尝试对其进行调整以便将第一步嵌入到主页
Perl 正则表达式在相同情况下替换

如果您在 perl 中有一个简单的正则表达式替换如下所示 line s JAM AAA g 我将如何修改它以便它查看匹配并使替换与匹配的大小写相同例如 JAM 将变成 AAA jam 会变成 aaa 基于 Unicode 的解决方案
Git 子模块初始化异步

当我跑步时git submodule update init第一次在有很多子模块的项目上这通常需要很多时间因为大多数子模块都存储在缓慢的公共服务器上是否可以异步初始化子模块从 Git 2 8 开始你可以这样做 git submod
PHP/C++：将值注入 EXE 文件 [关闭]

Closed 这个问题需要多问focused help closed questions 目前不接受答案我想动态地将一个值注入到 EXE 文件中我过去接触过的一家公司给了我一个 EXE 存根我可以在用户下载它之前使用 PHP 动态注入
Qt 构建可以开箱即用静态链接？

我使用 Qt 构建了一个小型应用程序事实证明我需要从头开始重新配置 Qt 以便能够静态链接我以前做过我记得那是一个非常漫长的过程那么有人知道提供开箱即用静态链接功能的 Qt SDK 安装程序吗此外马丁贝克特的回答 https
比较 data.table 的两行并仅显示有差异的列[重复]

这个问题在这里已经有答案了我得到了一个大的 data table 其中包含不同类型的列例如数字或字符例如 data table name c A A val1 c 1 2 val2 c 3 3 cat c u v name val1
在 Apache POI 3.9 中，使用 autosizeColumn 同一列上的图像会被拉伸

我在 Excel 工作表中有一张图像和图像下方的一些文本当我将 autoSizeColumn 应用于文本呈现的列时图像也会被拉伸我还将锚类型设置为 2 但这并不能保护图像调整大小我在这里发布一些示例代码 public static
Spark：JavaRDD 到 JavaPairRDD<>

我有一个JavaRDD
透明精灵表有黑色背景

我正在使用 Python 和 Pygame 开发游戏我为其中一个敌人创建了一个精灵表并使其代码正常工作问题是图像看起来有黑色背景即使它是透明图像它的代码是这样的 enemySheet pygame image load resou
使用 selenium Java (Mac OSX) 将 Firefox 浏览器置于前端

我正在使用三个火狐驱动程序实例进行自动化我需要将当前活动的火狐浏览器置于前面因为我正在使用一些机器人类进行某些操作我曾在 mac 中尝试过针对 google chrome 的 java 脚本警报相同的操作并且工作正常在 Wind
在Android 4.2 API 17上读取Sqlite Cursor carsh

我有一张桌子145行当我尝试获取所有数据时crashed on android 4 2 BUT它工作得很好android 4 4 emulator public ArrayList
为什么我不能得到与 GridSearchCV 相同的结果？

GridSearchCV只返回每个参数化的分数我还希望看到 Roc 曲线以更好地理解结果为了做到这一点我想采用性能最好的模型GridSearchCV并重现这些相同的结果但缓存概率这是我的代码 import numpy as np

为什么我不能得到与 GridSearchCV 相同的结果？

为什么我不能得到与 GridSearchCV 相同的结果？ 的相关文章

随机推荐

热门标签

为什么我不能得到与 GridSearchCV 相同的结果？的相关文章