使用 scikit-learn 运行 k-fold 后如何访问数据集?

2024-04-06

我正在尝试应用 kfold 方法,但我不知道如何访问生成的训练和测试集。在浏览了几个博客和 scikitlearn 用户指南后,人们唯一要做的就是打印训练和测试集。这可能适用于小型数据框,但对于较大的数据框则没有用。谁能帮我?

我正在使用的数据:https://github.com/ageron/handson-ml/tree/master/datasets/housing https://github.com/ageron/handson-ml/tree/master/datasets/housing

我目前所在的位置:

X = housing[['total_rooms', 'total_bedrooms']]
y = housing['median_house_value']

kf = KFold(n_splits=5) 

for train_index, test_index in kf.split(X):
    X_train, X_test = X.iloc[train_index], X.iloc[test_index]
    y_train, y_test = y.iloc[train_index], y.iloc[test_index]

但这仅对生成最后一个数据集有用。我应该能够得到全部。

提前致谢。


AFAIK, KFold(事实上​​,与交叉验证过程相关的所有内容)都是为了提供临时数据集,以便人们能够如您所说,即时使用它们来拟合和评估模型,如下所示scikit-learn 中每个数据分割的交叉验证指标 https://stackoverflow.com/questions/54201464/cross-validation-metrics-in-scikit-learn-for-each-data-split/54202609#54202609.

尽管如此,自从Kfold.split()结果在 Python 生成器中,您可以使用生成的索引来获取永久子集,尽管需要一些手动工作。以下是波士顿数据的示例:

from sklearn.model_selection import KFold
from sklearn.datasets import load_boston

X, y = load_boston(return_X_y=True)
n_splits = 3
kf = KFold(n_splits=n_splits, shuffle=True)

folds = [next(kf.split(X)) for i in range(n_splits)]

现在,对于每一个k in range(n_splits), folds[k][0]包含训练指标和folds[k][1]相应的验证索引,所以你可以这样做:

X_train_1 = X[folds[0][0]]
X_test_1 = X[folds[0][1]]

等等。请注意,相同的索引适用于标签y too.

本文内容由网友自发贡献,版权归原作者所有,本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容,请联系:hwhale#tublm.com(使用前将#替换为@)

使用 scikit-learn 运行 k-fold 后如何访问数据集? 的相关文章

  • 使用 pygame 显示 unicode 符号

    我检查了其他答案 但不明白为什么我的代码错误地显示 This is what I currently see https i stack imgur com 8tNIK png 这是关于文本渲染的相关代码 font pygame font
  • python 中的并行处理

    在 python 2 7 中进行并行处理的简单代码是什么 我在网上找到的所有示例都很复杂 并且包含不必要的代码 我该如何做一个简单的强力整数分解程序 在每个核心 4 上分解 1 个整数 我真正的程序可能只需要2个核心 并且需要共享信息 我知
  • pyspark 数据框中的自定义排序

    是否有推荐的方法在 pyspark 中实现分类数据的自定义排序 我理想地寻找 pandas 分类数据类型提供的功能 因此 给定一个数据集Speed列 可能的选项是 Super Fast Fast Medium Slow 我想实现适合上下文的
  • sklearn 中的 pca.inverse_transform

    将我的数据拟合后 X 我的数据 pca PCA n components 1 pca fit X X pca pca fit transform X 现在 X pca 具有一维 当我根据定义执行逆变换时 它不是应该返回原始数据 即 X 二维
  • 如果未引发异常,则通过 Python 单元测试

    在Python中unittest框架 是否有一种方法可以在未引发异常的情况下通过单元测试 否则会因 AssertRaise 而失败 如果我正确理解你的问题 你could做这样的事情 def test does not raise on va
  • 在没有模型的情况下将自定义页面添加到 django admin

    我正在尝试在没有模型关联的情况下向管理员添加自定义页面 这就是我迄今为止所取得的成就 class MyCustomAdmin AdminSite def get urls self from django conf urls import
  • 搜索多个字段

    我想我没有正确理解 django haystack 我有一个包含多个字段的数据模型 我希望搜索其中两个字段 class UserProfile models Model user models ForeignKey User unique
  • 没有名为 StringIO 的模块

    我有Python 3 6 我想从另一个名为 run py 的 python 文件执行名为 operation py 的 python 文件 In operation py I do from cStringIO import StringI
  • Keras:如何保存模型或权重?

    如果这个问题看起来很简单 我很抱歉 但是阅读 Keras 保存和恢复帮助页面 https www tensorflow org beta tutorials keras save and restore models https www t
  • 一段时间后终止线程的最 Pythonic 方法

    我想在线程中运行一个进程 它正在迭代一个大型数据库表 当线程运行时 我只想让程序等待 如果该线程花费的时间超过 30 秒 我想终止该线程并执行其他操作 通过终止线程 我的意思是我希望它停止活动并优雅地释放资源 我认为最好的方法是通过Thre
  • 在 matplotlib 中的极坐标图上移动径向刻度标签

    From matplotlib 示例 http matplotlib org examples pylab examples polar demo html import numpy as np import seaborn as sbs
  • 如果在等待“read -s”时中断,在子进程中运行 bash 会破坏 tty 的标准输出吗?

    正如 Bakuriu 在评论中指出的那样 这基本上与BASH 输入期间按 Ctrl C 会中断当前终端 https stackoverflow com questions 31808863 bash ctrlc during input b
  • SMTP_SSL SSLError: [SSL: UNKNOWN_PROTOCOL] 未知协议 (_ssl.c:590)

    此问题与 smtplib 的 SMTP SSL 连接有关 当与 SMTP 无 ssl 连接时 它正在工作 在 SMTP SSL 中尝试相同的主机和端口时 出现错误 该错误仅基于主机 gmail 设置也工作正常 请检查下面的示例 如果 Out
  • 使用 Keras np_utils.to_categorical 的问题

    我正在尝试将整数的 one hot 向量数组制作为 keras 将能够使用的 one hot 向量数组来拟合我的模型 这是代码的相关部分 Y train np hstack np asarray dataframe output vecto
  • 在 keras 中保存和加载权重

    我试图从我训练过的模型中保存和加载权重 我用来保存模型的代码是 TensorBoard log dir output model fit generator image a b gen batch size steps per epoch
  • Anaconda 无法导入 ssl 但 Python 可以

    Anaconda 3 Jupyter笔记本无法导入ssl 但使用Atom终端导入ssl没有问题 我尝试在 Jupyter 笔记本中导入 ssl 但出现以下错误 C ProgramData Anaconda3 lib ssl py in
  • 混淆矩阵不支持多标签指示符

    multilabel indicator is not supported是我在尝试运行时收到的错误消息 confusion matrix y test predictions y test is a DataFrame其形状为 Horse
  • 如何与其他用户一起使用 pyenv?

    如何与其他用户一起使用 pyenv 例如 如果我在用户 test 的环境中安装了 pyenv 则当我以 test 身份登录时可以使用 pyenv 但是 当我以其他用户 例如 root 身份登录时如何使用 pyenv 即使你这么做了 我也会s
  • Django 与谷歌图表

    我试图让谷歌图表显示在我的页面上 但我不知道如何将值从 django 视图传递到 javascript 以便我可以绘制图表 姜戈代码 array Year Sales Expenses 2004 1000 400 2005 1170 460
  • 查找总和为给定数字的值组合的函数

    这个帖子查找提供的 Sum 值的组合 https stackoverflow com a 20194023 1561176呈现函数subsets with sum 它在数组中查找总和等于给定值的值的组合 但由于这个帖子已经有6年多了 我发这

随机推荐

  • 使用 py2exe 隐藏 Python GUI 应用程序的控制台窗口

    我有一个使用 Qt 实际上是 PyQt4 的 Python 程序 当我从 main py 启动它时 我会得到一个控制台窗口和 GUI 窗口 当然 在 Windows 上 然后我用 py2exe 编译我的程序并成功创建 main exe 但是
  • 如何获得批号的可用数量

    如何获取多个仓库中批号的可用数量 假设我有3个仓库A B和C 批号 LOT0001 我想要所有三个位置的 LOT 0001 目前可用的总数量 在 odoo 中 您可以在上下文中传递过滤器 ex context lot id owner id
  • 导入错误:您必须是 root

    我尝试在 python 3 中使用键盘库 但仍然出现导入错误 我在 Thonny 的 Windows 中运行了该程序 它工作正常 但我无法在 pi 中运行它 我尝试以 root 身份运行它并使用 sudo 命令运行它 得到相同的结果 下面是
  • nhibernate 交替批量大小

    当使用 NHibernate 执行查询时 如果批处理大小设置为大于实际返回的结果 则似乎不考虑批处理大小 我正在使用最新版本的 NHibernate 2 1 0 4000 和 Linq to NHibernate 的 GA 我有一个类似于
  • 为什么在使用 Microsoft.Bcl - 无法等待'System.Threading.Tasks.Task 时,我不能在 Windows Phone 7.1 MvvmCross 项目中使用 wait 关键字?

    使用 Microsoft Bcl Microsoft BCL Portability Pack 时 我无法在 MvvmCross Windows Phone 7 1 项目中使用 wait 关键字 我已经发布了下面描述的示例项目的代码GitH
  • 只有创建视图层次结构的原始线程才能触摸其视图错误

    一切正常 除非到达代码的最后部分 注册成功 然后标题中提到的错误出现在registerDialog消息部分中 我做错了什么吗 谁能帮我检查我的代码 非常感谢 该应用程序没有崩溃 尽管它只是退出回到应用程序主页 如果我再次按下注册按钮 它将返
  • 如何根据周对 pandas 数据框进行分区并保存为 CSV?

    我有一个熊猫数据框 如下所示 这个数据框大约一个月的时间段 如何根据周对该数据框进行分区 我需要每 4 周保存为 4 个单独的 CSV 文件 Time Stamp Id Latitude Longitude 01 10 2016 15 22
  • 使用 AngularJS ngTable 自定义过滤器

    我正在尝试使用 ngTable 构建一个表 但使用与中描述的不同的自定义过滤ngTable 页面的示例 http bazalt cms com ng table example 11 我希望进行适当的过滤 但我不希望 ngTable 呈现过
  • Cypress:在第一次失败时中断所有测试

    如何在第一次测试失败时中断所有赛普拉斯测试 我们使用信号量为每个 PR 与 Cypress 启动完整的 e2e 测试 但这需要太多时间 我想在第一次测试失败时中断所有测试 获取完整的错误是每个开发人员在开发时的职责 如果在部署之前出现任何问
  • 如何使用grep提取子字符串? [复制]

    这个问题在这里已经有答案了 可能的重复 从字符串中提取正则表达式结果并将其写入变量 https stackoverflow com questions 3148558 extract regexp result from string an
  • 生成字符串列表的所有组合

    我想生成一个字符串列表的所有可能组合的列表 它实际上是一个对象列表 但为了简单起见 我们将使用字符串 我需要这个列表 以便我可以在单元测试中测试每种可能的组合 例如 如果我有一个列表 var allValues new List
  • 在 C# 中使用派生返回类型覆盖抽象属性

    我有四节课 请求 派生请求 处理程序 派生处理程序 Handler 类有一个带有以下声明的属性 public abstract Request request get set DerivedHandler 需要重写此属性 以便它返回 Der
  • 不了解类 UNET 架构中的数据流,并且 Conv2DTranspose 层的输出存在问题

    我对修改后的 U Net 架构的输入维度有一两个问题 为了节省您的时间并更好地理解 重现我的结果 我将发布代码和输出尺寸 修改后的U Net架构是来自的MultiResUNet架构https github com nibtehaz Mult
  • MKMapView 崩溃

    我无法确定崩溃的具体时间 因为有时会发生 但大多数时候不会 当添加新注释并且图钉下降时 或者当图钉位置发生更改 拖动 时 它会崩溃 我的ios版本是4 3 1 Crash Thread 0 Crashed 0 libobjc A dylib
  • asp.net在gridview中查找控件

    如何使用查找控件访问Label4 感谢您的任何帮助 您可以提供
  • 如何在共享主机上托管 codeigniter 4 网站? [关闭]

    Closed 这个问题不符合堆栈溢出指南 help closed questions 目前不接受答案 我刚刚创建了一个 codeigniter4 项目 我想将其上传到 sharehosting 上 但我的网站无法访问 它给出了服务器错误 出
  • 如何在 C# Windows 应用程序中引用网站用户控件?

    我在 Windows C 应用程序中有一个解决方案 其中我也有一个网站 在网站中我有 1 个用户控件 现在我希望在同一解决方案的其他 C 项目中使用用户控件 怎么做 那是不可能的 您必须为 Windows 应用程序重新创建它 您可以重用的是
  • Angular 2:路由参数更改,重新加载同一页面?

    我有一个带有参数的路由 当转到页面 users 123 时 其中 123 是调用 ngOnInit 的参数 我获取我的参数并调用我的方法来获取用户 但是 当我在该页面上单击第二个链接 users 456 时 将不再调用 ngOnInit 因
  • 如何使用Struts2 Jquery插件实现过滤器搜索

    我正在尝试为我的 Struts2 jquery 网格实现过滤器搜索 如果我搜索任何字符串 通过 jquery 过滤器文本框 那么它会调用我的操作类 但我无法在我的操作类中获取搜索字符串 我尝试在我的 Action 类中打印此行 但搜索字符串
  • 使用 scikit-learn 运行 k-fold 后如何访问数据集?

    我正在尝试应用 kfold 方法 但我不知道如何访问生成的训练和测试集 在浏览了几个博客和 scikitlearn 用户指南后 人们唯一要做的就是打印训练和测试集 这可能适用于小型数据框 但对于较大的数据框则没有用 谁能帮我 我正在使用的数