如何在sklearn中实现n次重复的k折交叉验证以产生n*k折？

2024-02-14

I got some trouble in implementing a cross validation setting that i saw in a paper. Basically it is explained in this attached picture:

所以，它说他们使用 5 折，这意味着k = 5。但随后，作者表示，他们重复交叉验证 20 次，总共创建了 100 次折叠。这是否意味着我可以使用这段代码：

kfold = StratifiedKFold(n_splits=100, shuffle=True, random_state=seed)

因为基本上我的代码也产生了 100 倍的结果。有什么推荐吗？

我很确定他们正在谈论RepeatedStratifiedKFold。您有 2 种简单的方法可以折叠 5 次 20 次。

方法一：

对于你的情况，n_splits=5, n_repeats=20。下面的代码只是 scikit-learn 网站的示例。

from sklearn.model_selection import RepeatedStratifiedKFold
X = np.array([[1, 2], [3, 4], [1, 2], [3, 4]])
y = np.array([0, 0, 1, 1])

rskf = RepeatedStratifiedKFold(n_splits=2, n_repeats=2,
...     random_state=42)
>>> for train_index, test_index in rskf.split(X, y):
...     print("TRAIN:", train_index, "TEST:", test_index)
...     X_train, X_test = X[train_index], X[test_index]
...     y_train, y_test = y[train_index], y[test_index]
...
TRAIN: [1 2] TEST: [0 3] # n_repeats==1: the folds are [1 2] and [0 3]
TRAIN: [0 3] TEST: [1 2]
TRAIN: [1 3] TEST: [0 2] # n_repeats==2: the folds are [1 3] and [0 2]
TRAIN: [0 2] TEST: [1 3]

方法二：

您可以通过循环实现相同的效果。请注意，random_state不能是固定的数字，否则20次都会得到同样的5折。
for i in range(20):
    kfold = StratifiedKFold(n_splits=5, shuffle=True, random_state=i)

为什么和你的代码不一样？

假设您有 10000 个数据点并创建 100 个折叠。 1 倍的大小 = 100。您的训练集 = 9900 与验证集 = 100。

RepeatedStratifiedKFold为您的模型创建 5 次折叠，每次折叠 2000 次。然后重复进行 5 次折叠，如此反复，共 20 次。这意味着您实现了 100 倍，但验证集却很大。根据您的目标，您可能需要更大的验证集，例如。有足够的数据来正确验证，并且RepeatedStratifiedKFold使您能够以不同的方式（使用不同的训练验证比例）创建相同数量的折叠。除此之外，我不确定是否还有其他目标。

http://scikit-learn.org/stable/modules/ generated/sklearn.model_selection.RepeatedStratifiedKFold.html http://scikit-learn.org/stable/modules/generated/sklearn.model_selection.RepeatedStratifiedKFold.html

谢谢RepeatedStratifiedKFold.

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)

如何在sklearn中实现n次重复的k折交叉验证以产生n*k折？的相关文章

pydev 调试器：严重警告：此版本的 python 似乎编译不正确（内部生成的文件名不是绝对的）[重复]

这个问题在这里已经有答案了通过运行 from sklearn datasets import fetch california housing import pandas as pd pd set option precision 4 m
如何在Python中使用克里格法对二维空间数据进行插值？

我有一个空间 2D 域例如 0 1 0 1 在此域中有 6 个点观察到了一些感兴趣的标量例如温度机械应力流体密度等如何预测未观察点的兴趣量换句话说如何在 Python 中插入空间数据例如考虑 2D 域中的点输入的以下
如何使用 imaplib 获取“消息 ID”

我尝试获取一个在操作期间不会更改的唯一 ID 我觉得UID不好所以我认为 Message ID 是正确的但我不知道如何获取它我只知道 imap fetch uid XXXX 有人有解决方案吗来自 IMAP 文档本身 IMAP4消息号
Django 模型在模板中不可迭代

我试图迭代模型以获取列表中的第一个图像但它给了我错误即模型不可迭代以下是我的模型和模板的代码我只需要获取与单个产品相关的列表中的第一个图像模型 py class Product models Model title models
Pandas 中允许重复列

我将一个大的 CSV 包含股票财务数据文件分割成更小的块 CSV 文件的格式不同像 Excel 数据透视表之类的东西第一列的前几行包含一些标题公司名称 ID 等在以下列中重复因为一家公司有多个属性而不是一家公司只有一栏在前几行
忽略 Mercurial hook 中的某些 Mercurial 命令

我有一个像这样的善变钩子 hooks pretxncommit myhook python path to file myhook 代码如下所示 def myhook ui repo kwargs do some stuff 但在我的例子中
如何计算numpy数组中元素的频率？

我有一个 3 D numpy 数组其中包含重复的元素 counterTraj shape 13530 1 1 例如 counterTraj 包含这样的元素我只显示了几个元素 array 136 129 130 103 102 101 我
使用 Python pandas 计算调整后的成本基础（股票买入/卖出的投资组合分析）

我正在尝试对我的交易进行投资组合分析并尝试计算调整后的成本基础价格我几乎尝试了一切但似乎没有任何效果我能够计算调整后的数量但无法获得调整后的购买价格有人可以帮忙吗这是示例交易日志原始数据 import pandas as pd
python suds SOAP 请求中的名称空间前缀错误

我使用 python suds 来实现客户端并且在发送的 SOAP 标头中得到了错误的命名空间前缀用于定义由element ref 在 wsdl 中 wsdl 正在引用数据类型 xsd 文件请参见下文问题出在函数上GetRecord
如何通过在 Python 3.x 上按键来启动和中断循环

我有这段代码当按下 P 键时会中断循环但除非我按下非 P 键否则循环不会工作 def main openGame while True purchase imageGrab if a sum gt 1200 fleaButton ti
将 2D NumPy 数组按元素相乘并求和

我想知道是否有一种更快的方法专用 NumPy 函数来执行 2D NumPy 数组的元素乘法然后对所有元素求和我目前使用np sum np multiply A B 其中 A B 是相同维度的 NumPy 数组m x n 您可以使用np
使用 NumPy 将非均匀数据从文件读取到数组中

假设我有一个如下所示的文本文件 33 346 1223 10 23 11 23 12 23 13 23 14 23 15 23 16 24 10 24 11 24 12 24 13 24 14 24 15 24 16 25 14 25 15
如何在 OSX 上安装 numpy 和 scipy？

我是 Mac 新手请耐心等待我现在使用的是雪豹 10 6 4 我想安装numpy和scipy 所以我从他们的官方网站下载了python2 6 numpy和scipy dmg文件但是我在导入 numpy 时遇到问题 Library F
使用 PyTorch 分布式 NCCL 连接失败

我正在尝试使用 torch distributed 将 PyTorch 张量从一台机器发送到另一台机器 dist init process group 函数正常工作但是 dist broadcast 函数中出现连接失败这是我在节点 0
Tkinter - 浮动窗口 - 调整大小

灵感来自this https stackoverflow com a 22424245 13629335问题我想为我的根窗口编写自己的调整大小函数但我刚刚注意到我的代码显示了一些性能问题如果你快速调整它的大小你会发现窗口没有像我希望
当鼠标悬停在上面时，intellisense vscode 不显示参数或文档

我正在尝试将整个工作流程从 Eclipse 和 Jupyter Notebook 迁移到 VS Code 我安装了 python 扩展它应该带有 Intellisense 但它只是部分更糟糕我在输入句点后收到建议但当将鼠标悬停在其上方
Ubuntu 上的 Python 2.7

我是 Python 新手正在 Linux 机器 Ubuntu 10 10 上工作它正在运行 python 2 6 但我想运行 2 7 因为它有我想使用的功能有人敦促我不要安装 2 7 并将其设置为我的默认 python 我的问题是如
您可以将操作直接应用于map/reduce/filter 中的参数吗？

map and filter通常可以与列表理解互换但是reduce并不那么容易被交换map and filter 此外在某些情况下我仍然更喜欢函数语法但是当您需要对参数本身进行操作时我发现自己正在经历语法体操最终必须编写整个函数
Elastic Beanstalk 中的 enum34 问题

我正在尝试在 Elastic Beanstalk 中设置 django 环境当我尝试通过requirements txt 文件安装时我遇到了python3 6 问题 File opt python run venv bin pip li
Scrapy Spider不存储状态（持久状态）

您好有一个基本的蜘蛛可以运行以获取给定域上的所有链接我想确保它保持其状态以便它可以从离开的位置恢复我已按照给定的网址进行操作http doc scrapy org en latest topics jobs html http d

随机推荐

Sass 无效 CSS：预期表达式（例如 1px、粗体）为“{”

我有以下 Sass 以下这个例子是 each http sass lang com documentation file SASS REFERENCE html each directive each flag in USA EUR JPN
寻找想法/替代方案来提供与 GAE 数据存储查询匹配的页面/项目计数/项目导航

我喜欢数据存储的简单性可扩展性和易用性以及新版本中发现的增强功能ndb http code google com p appengine ndb experiment 图书馆很棒据我了解数据存储最佳实践当与查询匹配的项目数量很大时
JavaScript 从要上传的 FileList 中删除文件

有代码https jsfiddle net bfzmm1hc 1 https jsfiddle net bfzmm1hc 1一切看起来都很好但我想从集合中删除一些文件我已经找到了这些如何从输入文件控件中删除一个特定的选定文件 http
修复使用 include In Linq EF 时的循环

有没有什么方法可以解决 LINQ 与 EF6 中的循环问题在我的例子中有以下三个类第一员工等级 public class staff Key public int ID get set public string Name get
使用 sudo 使用 python 创建文件使其所有者为 root

我有一个简单的 python 脚本名为 myCreate py 在 Linux 上运行 fo open testFile txt wb 当我运行 python myCreate py testFile txt 的所有者仍然是我的用户当我
在 Flutter 中使用 Google Sign-In 获取用户的生日/性别

我想使用 Firebase Auth 和 Google Sign In 获取用户的生日和性别不幸的是登录后我只收到用户的电子邮件显示名称照片网址和电话号码我看到我可以将范围添加到 GoogleSignIn 对象我这样做了 ht
如何动态加载具有公共抽象类的jar？

我正在尝试开发一个插件系统它提供了一个在运行时加载jar的接口每个 jar 都包含一个从公共抽象类扩展而来的类例如 BasicPlugin java package byv abstract class BasicPlugin abs
JSP 表单中的输入 TYPE TEXT 值 (enctype="multipart/form-data") 返回 null [重复]

这个问题在这里已经有答案了我需要上传图片
Drupal hook_views_post_execute 没有被调用

我正在尝试加入hook views post executeDrupal 7 中的事件我的模块称为foo位于sites default modules features foo My foo module文件包含一个定义hook view
清理临时目录 Firebase 云功能

我正在为我的网络应用程序使用 Cloud Functions for Firebase 我需要为 Firebase 存储上上传的任何图像创建缩略图为此我需要将上传的文件从 GCS 存储桶下载到临时目录使用mkdirp promise
触发 ng-model.$formatters 以编程方式运行

我想要一个使用的自定义控件ngModel formatters https github com angular angular js blob master CHANGELOG md能够在服务器依赖项加载后立即格式化数据在我的例子中它
创建 (x, y) 对的随机顺序，不重复/后续的 x

假设我有一个有效的列表X 1 2 3 4 5 以及有效的列表Y 1 2 3 4 5 我需要生成中每个元素的所有组合X以及中的每个元素Y 在本例中为 25 并按随机顺序获取这些组合这本身很简单但有一个额外的要求在这个随机顺序中不能有相
如何从 Android Studio 项目中完全删除 Git？

我正在使用 Android Studio 开发我的第一个项目但无法正确配置 Git 和 GitHub 我想从我的项目中完全删除我的 Git Git 项目并重新开始我怎样才能做到这一点另外我的项目文件夹中没有 git 文件夹那么我的
Minhash实现如何找到排列的哈希函数

我在实施 minhashing 时遇到问题在纸上和阅读中我理解了这个概念但我的问题是排列技巧实现的建议不是排列集合和值的矩阵而是选择 k 例如 100 个独立的哈希函数然后算法表示 for each row r for eac
查询 CosmosDb 非结构化 JSON

CosmosDB 如何查询动态 JSON 中的属性值该应用程序允许将 JSON 存储为对象的一组自定义属性它们被序列化并存储在 CosmosDb 中例如这里有两个条目 id ade9f2d6 fff6 4993 8473 a2af4
为什么我的图像旋转算法不起作用？

尝试 1 和 2 Note 删除了减少问题大小的首次尝试请参阅社区 wiki 了解之前的尝试尝试3 根据 fuzzy waffle 的示例我已经实现了以下内容但它似乎无法正常工作有什么想法我可能做错了什么吗 ImageMatrix
Selenium 在 JS 中使用 async/await，查找并单击元素

我正在尝试使用 Selenium webdriver 和 Mocha 将我的测试重构为具有异步等待功能的 ES7 我有以下代码 await loginPage loginAsAdmin THIS DOES NOT WORK await l
多数据库应用程序的访问控制

我有一个 mainDB nsf 其中包含所有 XPage 设计代理脚本库等用户从该数据库中选择一个应用程序可能存在一个或多个应用数据库每个应用程序数据库都包含应用程序的实际数据以及在 mainDB 中的自定义控件中访问的数据的视
如何使用请求的第一个字母使用 .htaccess 重写缓存子目录？

我有一个缓存程序可以创建动态生成的 php 文件的静态 html 文件我目前使用 php 来检查缓存版本是否存在如果存在我将其提供并退出正如在这个问题 http stackoverflow com questions 561273
如何在sklearn中实现n次重复的k折交叉验证以产生n*k折？

I got some trouble in implementing a cross validation setting that i saw in a paper Basically it is explained in this at

如何在sklearn中实现n次重复的k折交叉验证以产生n*k折？

如何在sklearn中实现n次重复的k折交叉验证以产生n*k折？ 的相关文章

随机推荐

热门标签

如何在sklearn中实现n次重复的k折交叉验证以产生n*k折？的相关文章