具有多次重复的 scikit-learn GridSearchCV

2023-12-10

我正在尝试为 SVR 模型获取最佳参数集。我想使用GridSearchCV超过不同的值C。然而，从之前的测试中，我注意到训练/测试集的划分极大地影响了整体性能（在本例中为 r2）。为了解决这个问题，我想实现重复的 5 倍交叉验证 (10 x 5CV)。是否有一种内置的方法来执行它GridSearchCV?

快速解决方案，遵循 sci-kit 中提出的想法官方文档:

NUM_TRIALS = 10
scores = []
for i in range(NUM_TRIALS):
     cv = KFold(n_splits=5, shuffle=True, random_state=i)
     clf = GridSearchCV(estimator=svr, param_grid=p_grid, cv=cv)
     scores.append(clf.best_score_)
print "Average Score: {0} STD: {1}".format(numpy.mean(scores), numpy.std(scores))

这称为嵌套交叉验证。你可以看看官方文档示例引导您走向正确的方向，也可以看看我的其他答案在这里对于类似的方法。

您可以调整这些步骤以满足您的需要：

svr = SVC(kernel="rbf")
c_grid = {"C": [1, 10, 100, ...  ]}

# CV Technique "LabelKFold", "LeaveOneOut", "LeaveOneLabelOut", etc.

# To be used within GridSearch (5 in your case)
inner_cv = KFold(n_splits=5, shuffle=True, random_state=i)

# To be used in outer CV (you asked for 10)
outer_cv = KFold(n_splits=10, shuffle=True, random_state=i)

# Non_nested parameter search and scoring
clf = GridSearchCV(estimator=svr, param_grid=c_grid, cv=inner_cv)
clf.fit(X_iris, y_iris)
non_nested_score = clf.best_score_

# Pass the gridSearch estimator to cross_val_score
# This will be your required 10 x 5 cvs
# 10 for outer cv and 5 for gridSearch's internal CV
clf = GridSearchCV(estimator=svr, param_grid=c_grid, cv=inner_cv)
nested_score = cross_val_score(clf, X=X_iris, y=y_iris, cv=outer_cv).mean()

编辑 - 嵌套交叉验证的描述cross_val_score() and GridSearchCV()

clf = GridSearchCV（估计器，param_grid，cv=inner_cv）。
Pass clf, X, y, outer_cv to cross_val_score
正如所见cross_val_score的源代码, this X将分为X_outer_train, X_outer_test using outer_cv。 y 也一样。
X_outer_test将被阻止并且X_outer_train将被传递给 clf 进行 fit() （在我们的例子中是 GridSearchCV）。Assume X_outer_train叫做X_inner从这里开始，因为它被传递给内部估计器，认为y_outer_train is y_inner.
X_inner现在将被分为X_inner_train and X_inner_test using inner_cv在 GridSearchCV 中。 y 也一样
现在将使用 gridSearch 估计器进行训练X_inner_train and y_train_inner并使用评分X_inner_test and y_inner_test.
The 将重复步骤 5 和 6对于inner_cv_iters（本例中为5）。
所有内部迭代的平均得分的超参数(X_inner_train, X_inner_test)是最好的，被传递给clf.best_estimator_并适合所有数据，即X_outer_train.
This clf (gridsearch.best_estimator_）然后将使用X_outer_test and y_outer_test.
The 将重复步骤 3 至 9对于outer_cv_iters（此处为10），分数数组将从cross_val_score
然后我们使用mean()返回nested_score.

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)

python

scikitlearn

crossvalidation

Gridsearch

具有多次重复的 scikit-learn GridSearchCV 的相关文章

CVXPY 二次规划； ArpackNoConvergence 错误

我尝试使用 Python 包 CVXPY 来解决第一种形式的凸二次规划问题 https www cvxpy org examples basic quadratic program html https www cvxpy org exam
scipy.misc.imshow RuntimeError('无法执行图像视图')

我正在测试scipy misc imshow https docs scipy org doc scipy 0 15 1 reference generated scipy misc imshow html我得到了运行时错误无法执行图像查
如何移动我的图像？ python 3.10.4 pygame

我会移动我的图像图像是matiskinfinal png 我尝试将像素添加到 x 或其他我不知道它是什么的东西因为我真的是 python 的初学者 pygame但是是 x x 变化但图像没有移动 import os import py
pip 安装失败，SSL 证书验证失败 (_ssl.c:833)

我无法通过 pip install 安装任何外部 python 模块我已经正确安装了 python 但如果我使用 pip install 它会显示此错误这是我运行后的代码pip install pytesseract C Users 1
Python grpc protobuf 存根生成问题：--grpc_out: protoc-gen-grpc: 插件失败，状态代码 1

正如问题所说我从源代码编译了 grpc 并且也做了sudo pip install grpcio 但是那which grpc python plugin不返回任何内容这是一个问题因为route guide的grpc python示例
Python 按照层次结构按多个分隔符分割字符串

我只想根据多个分隔符例如 and 和按顺序分割字符串一次例子 121 34 adsfd gt 121 34 adsfd dsfsd and adfd gt dsfsd adfd dsfsd adfd gt dsfsd adfd dsf
在 Python 中绘制分类数据的三个维度

我的数据包含三个我试图可视化的分类变量城市五个之一职业四种之一血型四种之一到目前为止我已经成功地以一种我认为易于使用的方式对数据进行了分组 import numpy as np pandas as pd Make data
如何使用 HTTP 标头发送非英语 unicode 字符串？

我是 HTTP 相关问题的新手我的问题是在 iOS 开发中我想使用 HTTP 标头发送一个字符串所以我使用 httpRequest setValue nonEnglishString forHTTPHeaderField custom
如何从 Lua 调用 Python 函数？

我想从我的 lua 文件运行 python 脚本我怎样才能实现这个目标 Example Python代码 sum py file def sum from python a b return a b Lua code main lua f
在 vim 折叠线中语法高亮 Python

我发现代码折叠 http en wikipedia org wiki Code folding帮助我更好地组织我的文件因此在我的底部 vimrc 我启用vim代码折叠 http vimdoc sourceforge net htmldo
如何在Python中求和

我想知道如何在 python 中表示总和而不需要像这样的循环here http docs scipy org doc scipy reference tutorial optimize html 我们有 def rosen x The Ro
Flask 中的 import 和 extends 有什么区别？

我正在阅读 Flask Web 开发在例4 3中 extends base html import bootstrap wtf html as wtf 我想知道 extends 和 import 有什么区别我认为它们在用法上很相似在什
PyCharm 无法识别字典值类型

我有一个简单的代码片段其中我将字典值设置为空列表 new dict for i in range 1 13 new dict i 现在如果在下一行的循环内我会输入new dict i 并添加一个点我希望 PyCharm 向我显示可用于
如何删除 pandas 数据框中的唯一行？

我遇到了一个看似简单的问题在 pandas 数据框中删除唯一的行基本上相反drop duplicates https pandas pydata org pandas docs stable generated pandas Data
如何在交互式绘图（Python）中获得鼠标指向的（x，y）位置？

我使用 ipython 笔记本带有魔法 matplotlib nbagg 我正在审查matplotlib widget Cursor但仅查看光标widgets Cursor http matplotlib org 1 4 3 exampl
Scrapy的redirect_urls异常.KeyError

我是 Scrapy 和 Python 的新手最近推出了我的第一个蜘蛛有一个功能似乎以前有效但现在它只适用于我试图废弃的一些网站代码行是 item url direct response request meta redirect u
如何限制scrapy请求对象？

所以我有一个蜘蛛我认为它正在泄漏内存结果当我检查 telnet 控制台 gt gt gt prefs 时它只是从链接丰富的页面中抓取了太多链接有时它会超过 100 000 个现在我已经一遍又一遍地浏览文档和谷歌但我找不到一种方法
Matplotlib 中的 TwoSlopeNorm 未按预期工作

我正在尝试创建一个具有发散颜色图的绘图该颜色图在零附近不对称 In this https stackoverflow com a 20146989 6288682例如 DivergingNorm函数被使用并产生我想要的然而我使用的是更
在至少 7 天内连续三天登录该产品的用户

我有一个用于用户参与的数据框 df 如下所示 time stamp user id 2013 01 01 10 05 23 1 2013 01 03 16 35 23 1 2013 01 06 11 06 35 1 2013 01 10 1
通过 ManyToManyField = Value 对 django 查询集进行排序

如果有一些模型例如 class Tag models Model name models CharField class Thing models Model title models CharField tags models Many

随机推荐

如果列表项不在另一个列表中，则删除列表项 - python

这是我的情况我有一个 Person 对象的列表 class Person def init self name age self name name self uid str uuid uuid4 self age age 我的 UI 包
第二代 Google 云 SQL - App Engine

很高兴看到您推出了第二代云 SQL 测试版然而我发现它还不适用于 GAE 项目您能估计一下这个链接何时启用吗由于第一代 SQL 的缓慢我们正在我们的精美系统中进行一些重大的基础设施更改但如果更改不远我们将坚持使用云 SQL 自
组件包——在哪里划分运行时、设计时、注册时等

在构建安装组件时我知道注册单元通常是应该分开的事情但是何时应该划分组件的准则是什么安装分成两个单独的包通常一个是运行时另一个是设计时额外问题当运行时包和设计时包分开时可接受的包命名约定是什么任何特定于 IDE 中使用的内
time.strptime() - 参数 0 必须是 str，而不是字节

显然我已经知道了strftime and strptime不喜欢字节字符串作为参数但是我在这里陷入困境因为我需要读取其中保存了不同字符编码的文件内容并且我需要处理所有它们并发送每个文件的时间部分该文本文件中的行strptime 一个
Json.NET 反序列化 Mongo ObjectId 给出了错误的结果

我使用官方 Mongo C 驱动程序和 RestSharp 通过 Json NET 调用 Rest Api 来执行序列化反序列化假设我有一个 Person 类如下所示我想对其进行 POST 和 GET public class Pe
R 应用错误 - as.matrix.data.frame() 中的错误

我遇到了一个莫名其妙的错误我正在使用以下函数删除任何列中包含 NA 观察值的数据帧的行 removes NA d rows from a dataFrame wipeNArows lt function X rowsToDelete lt
使用 PHP 和 JSON 将图像数据从 XCode 插入 MySQL 数据库

如何使用 JSON 通过 PHP 从 XCode 在 MySQL 数据库中插入存储图像从 xcode 中您可以 void uploadImage UIImage image NSData imageData UIImageJPEGRe
如何使用 ionic 将 URL 中的图像保存到设备照片库中？

我是 ionic 的新手我正在应用程序中使用 ionic 开发应用程序当用户单击下载按钮时我需要将图像下载到用户设备我进行了很多搜索但找不到任何合适的解决方案您可以使用Transfer plugin from ionic nat
如何在 Mongoose 中检索嵌入文档中数组的最后一个对象？

我在编写查询来检索 Story 文档中嵌入的 Comments 数组的最后一个对象时遇到问题当我执行 db stories find 时我的集合当前看起来像这样 id ObjectId 55d3a39565698bbc68079e31
XMPP 聊天应用程序因使用 VoIP 服务作为后台模式而被拒绝

我已经完成了一个 XMPP 聊天应用程序其中我使用 Voip 服务来获取 Voip 密钥以便在我在后台时接收聊天消息功能一切正常但应用程序商店拒绝该应用程序响应如下 2 16 多任务应用程序只能将后台服务用于其预期目的 VoIP
iPad 上模态视图上显示不需要的 SplitView

在 iPad 上测试我的第一个 SwiftUI 应用程序时我发现从 ContentView 显示的模态视图在 iPad 上显示为拆分视图主侧的 UI 被截断详细信息侧为空我确实在这里检查了两篇文章不需要的分割视图 and UISp
读取csv文件c#

有没有办法将 csv 文件读入矩阵这样文件中的每个方块都将是矩阵中的一个单元格有许多开源 CSV 阅读器而且编写自己的代码也很容易首先请访问 codeplex com http kbcsv codeplex com 或者Codepr
使用 D3.js 对折线图中的线条进行动画处理

我有我的折线图有 2 条线绘制折线图的数据是从 csv 文件中提取的谁能解释一下我如何从一个空图表开始当我单击一个按钮时我的线条在图表上有动画效果吗提前致谢 var Button d3 select button var mar
我无法在 R 中安装软件包

当我尝试在 Rstudio 中安装任何软件包时我收到以下错误消息 Error in install packages path 1 C Users javad Documents Rhistory win library 3 2 The
处理来自 api 调用的文件下载

在反应中我正在根据 John Culviner 中提到的解决方案测试我的文件下载这个帖子 axios post api downloadMyFile data then response gt const url window URL c
jQuery.datepicker.formatDate 和时区偏移

为了处理日期我使用 jQuery UIpublic我的应用程序中的方法 jQuery datepicker formatDate 请参阅此处的参数和来源 https github com jquery jquery ui blob mas
在 ASP.NET MVC 5 中将整个对象从视图传递到控制器

有没有办法将整个对象从 ASP NET MVC 5 视图传递到控制器这是我的情况我有一个显示数据库表中所有行的视图视图的模型是 IEnumerable 每行数据后面都有一个链接可通往支架式 UPDATE 视图有没有办法将整个对象传
C#/IRS ACA - 使用 WCF 4.5 发送带有 MTOM 附件和 GZip 编码的 Web 服务请求

我们正在尝试通过公开的 Web 服务将数据发送到 IRS 以进行 ACA 数据传输但由于安全标头中时间戳和签名元素的顺序我们无法使 WSE 3 0 方法发挥作用当 TimeStamp 元素出现在 Signature 元素之前时 IRS
Windows 上的 Pyusb - 没有可用的后端

我正在尝试通过 USB 将我的 Python 应用程序接口与 NFC 设备连接最好的选择似乎是PyUSB 但我无法让它连接到 libusb 后端我不断得到 ValueError 没有可用的后端我查看了堆栈跟踪发现usb backen
具有多次重复的 scikit-learn GridSearchCV

我正在尝试为 SVR 模型获取最佳参数集我想使用GridSearchCV超过不同的值C 然而从之前的测试中我注意到训练测试集的划分极大地影响了整体性能在本例中为 r2 为了解决这个问题我想实现重复的 5 倍交叉验证 10 x 5

具有多次重复的 scikit-learn GridSearchCV

具有多次重复的 scikit-learn GridSearchCV 的相关文章

随机推荐

热门标签