使用 scikit-learn 运行 k-fold 后如何访问数据集？

2024-04-06

我正在尝试应用 kfold 方法，但我不知道如何访问生成的训练和测试集。在浏览了几个博客和 scikitlearn 用户指南后，人们唯一要做的就是打印训练和测试集。这可能适用于小型数据框，但对于较大的数据框则没有用。谁能帮我？

我正在使用的数据：https://github.com/ageron/handson-ml/tree/master/datasets/housing https://github.com/ageron/handson-ml/tree/master/datasets/housing

我目前所在的位置：

X = housing[['total_rooms', 'total_bedrooms']]
y = housing['median_house_value']

kf = KFold(n_splits=5) 

for train_index, test_index in kf.split(X):
    X_train, X_test = X.iloc[train_index], X.iloc[test_index]
    y_train, y_test = y.iloc[train_index], y.iloc[test_index]

但这仅对生成最后一个数据集有用。我应该能够得到全部。

提前致谢。

AFAIK, KFold（事实上，与交叉验证过程相关的所有内容）都是为了提供临时数据集，以便人们能够如您所说，即时使用它们来拟合和评估模型，如下所示scikit-learn 中每个数据分割的交叉验证指标 https://stackoverflow.com/questions/54201464/cross-validation-metrics-in-scikit-learn-for-each-data-split/54202609#54202609.

尽管如此，自从Kfold.split()结果在 Python 生成器中，您可以使用生成的索引来获取永久子集，尽管需要一些手动工作。以下是波士顿数据的示例：

from sklearn.model_selection import KFold
from sklearn.datasets import load_boston

X, y = load_boston(return_X_y=True)
n_splits = 3
kf = KFold(n_splits=n_splits, shuffle=True)

folds = [next(kf.split(X)) for i in range(n_splits)]

现在，对于每一个k in range(n_splits), folds[k][0]包含训练指标和folds[k][1]相应的验证索引，所以你可以这样做：

X_train_1 = X[folds[0][0]]
X_test_1 = X[folds[0][1]]

等等。请注意，相同的索引适用于标签y too.

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)

使用 scikit-learn 运行 k-fold 后如何访问数据集？的相关文章

使用 pygame 显示 unicode 符号

我检查了其他答案但不明白为什么我的代码错误地显示 This is what I currently see https i stack imgur com 8tNIK png 这是关于文本渲染的相关代码 font pygame font
python 中的并行处理

在 python 2 7 中进行并行处理的简单代码是什么我在网上找到的所有示例都很复杂并且包含不必要的代码我该如何做一个简单的强力整数分解程序在每个核心 4 上分解 1 个整数我真正的程序可能只需要2个核心并且需要共享信息我知
pyspark 数据框中的自定义排序

是否有推荐的方法在 pyspark 中实现分类数据的自定义排序我理想地寻找 pandas 分类数据类型提供的功能因此给定一个数据集Speed列可能的选项是 Super Fast Fast Medium Slow 我想实现适合上下文的
sklearn 中的 pca.inverse_transform

将我的数据拟合后 X 我的数据 pca PCA n components 1 pca fit X X pca pca fit transform X 现在 X pca 具有一维当我根据定义执行逆变换时它不是应该返回原始数据即 X 二维
如果未引发异常，则通过 Python 单元测试

在Python中unittest框架是否有一种方法可以在未引发异常的情况下通过单元测试否则会因 AssertRaise 而失败如果我正确理解你的问题你could做这样的事情 def test does not raise on va
在没有模型的情况下将自定义页面添加到 django admin

我正在尝试在没有模型关联的情况下向管理员添加自定义页面这就是我迄今为止所取得的成就 class MyCustomAdmin AdminSite def get urls self from django conf urls import
搜索多个字段

我想我没有正确理解 django haystack 我有一个包含多个字段的数据模型我希望搜索其中两个字段 class UserProfile models Model user models ForeignKey User unique
没有名为 StringIO 的模块

我有Python 3 6 我想从另一个名为 run py 的 python 文件执行名为 operation py 的 python 文件 In operation py I do from cStringIO import StringI
Keras：如何保存模型或权重？

如果这个问题看起来很简单我很抱歉但是阅读 Keras 保存和恢复帮助页面 https www tensorflow org beta tutorials keras save and restore models https www t
一段时间后终止线程的最 Pythonic 方法

我想在线程中运行一个进程它正在迭代一个大型数据库表当线程运行时我只想让程序等待如果该线程花费的时间超过 30 秒我想终止该线程并执行其他操作通过终止线程我的意思是我希望它停止活动并优雅地释放资源我认为最好的方法是通过Thre
在 matplotlib 中的极坐标图上移动径向刻度标签

From matplotlib 示例 http matplotlib org examples pylab examples polar demo html import numpy as np import seaborn as sbs
如果在等待“read -s”时中断，在子进程中运行 bash 会破坏 tty 的标准输出吗？

正如 Bakuriu 在评论中指出的那样这基本上与BASH 输入期间按 Ctrl C 会中断当前终端 https stackoverflow com questions 31808863 bash ctrlc during input b
SMTP_SSL SSLError: [SSL: UNKNOWN_PROTOCOL] 未知协议 (_ssl.c:590)

此问题与 smtplib 的 SMTP SSL 连接有关当与 SMTP 无 ssl 连接时它正在工作在 SMTP SSL 中尝试相同的主机和端口时出现错误该错误仅基于主机 gmail 设置也工作正常请检查下面的示例如果 Out
使用 Keras np_utils.to_categorical 的问题

我正在尝试将整数的 one hot 向量数组制作为 keras 将能够使用的 one hot 向量数组来拟合我的模型这是代码的相关部分 Y train np hstack np asarray dataframe output vecto
在 keras 中保存和加载权重

我试图从我训练过的模型中保存和加载权重我用来保存模型的代码是 TensorBoard log dir output model fit generator image a b gen batch size steps per epoch
Anaconda 无法导入 ssl 但 Python 可以

Anaconda 3 Jupyter笔记本无法导入ssl 但使用Atom终端导入ssl没有问题我尝试在 Jupyter 笔记本中导入 ssl 但出现以下错误 C ProgramData Anaconda3 lib ssl py in
混淆矩阵不支持多标签指示符

multilabel indicator is not supported是我在尝试运行时收到的错误消息 confusion matrix y test predictions y test is a DataFrame其形状为 Horse
如何与其他用户一起使用 pyenv？

如何与其他用户一起使用 pyenv 例如如果我在用户 test 的环境中安装了 pyenv 则当我以 test 身份登录时可以使用 pyenv 但是当我以其他用户例如 root 身份登录时如何使用 pyenv 即使你这么做了我也会s
Django 与谷歌图表

我试图让谷歌图表显示在我的页面上但我不知道如何将值从 django 视图传递到 javascript 以便我可以绘制图表姜戈代码 array Year Sales Expenses 2004 1000 400 2005 1170 460
查找总和为给定数字的值组合的函数

这个帖子查找提供的 Sum 值的组合 https stackoverflow com a 20194023 1561176呈现函数subsets with sum 它在数组中查找总和等于给定值的值的组合但由于这个帖子已经有6年多了我发这

随机推荐

使用 py2exe 隐藏 Python GUI 应用程序的控制台窗口

我有一个使用 Qt 实际上是 PyQt4 的 Python 程序当我从 main py 启动它时我会得到一个控制台窗口和 GUI 窗口当然在 Windows 上然后我用 py2exe 编译我的程序并成功创建 main exe 但是
如何获得批号的可用数量

如何获取多个仓库中批号的可用数量假设我有3个仓库A B和C 批号 LOT0001 我想要所有三个位置的 LOT 0001 目前可用的总数量在 odoo 中您可以在上下文中传递过滤器 ex context lot id owner id
导入错误：您必须是 root

我尝试在 python 3 中使用键盘库但仍然出现导入错误我在 Thonny 的 Windows 中运行了该程序它工作正常但我无法在 pi 中运行它我尝试以 root 身份运行它并使用 sudo 命令运行它得到相同的结果下面是
nhibernate 交替批量大小

当使用 NHibernate 执行查询时如果批处理大小设置为大于实际返回的结果则似乎不考虑批处理大小我正在使用最新版本的 NHibernate 2 1 0 4000 和 Linq to NHibernate 的 GA 我有一个类似于
为什么在使用 Microsoft.Bcl - 无法等待'System.Threading.Tasks.Task 时，我不能在 Windows Phone 7.1 MvvmCross 项目中使用 wait 关键字？

使用 Microsoft Bcl Microsoft BCL Portability Pack 时我无法在 MvvmCross Windows Phone 7 1 项目中使用 wait 关键字我已经发布了下面描述的示例项目的代码GitH
只有创建视图层次结构的原始线程才能触摸其视图错误

一切正常除非到达代码的最后部分注册成功然后标题中提到的错误出现在registerDialog消息部分中我做错了什么吗谁能帮我检查我的代码非常感谢该应用程序没有崩溃尽管它只是退出回到应用程序主页如果我再次按下注册按钮它将返
如何根据周对 pandas 数据框进行分区并保存为 CSV？

我有一个熊猫数据框如下所示这个数据框大约一个月的时间段如何根据周对该数据框进行分区我需要每 4 周保存为 4 个单独的 CSV 文件 Time Stamp Id Latitude Longitude 01 10 2016 15 22
使用 AngularJS ngTable 自定义过滤器

我正在尝试使用 ngTable 构建一个表但使用与中描述的不同的自定义过滤ngTable 页面的示例 http bazalt cms com ng table example 11 我希望进行适当的过滤但我不希望 ngTable 呈现过
Cypress：在第一次失败时中断所有测试

如何在第一次测试失败时中断所有赛普拉斯测试我们使用信号量为每个 PR 与 Cypress 启动完整的 e2e 测试但这需要太多时间我想在第一次测试失败时中断所有测试获取完整的错误是每个开发人员在开发时的职责如果在部署之前出现任何问
如何使用grep提取子字符串？ [复制]

这个问题在这里已经有答案了可能的重复从字符串中提取正则表达式结果并将其写入变量 https stackoverflow com questions 3148558 extract regexp result from string an
生成字符串列表的所有组合

我想生成一个字符串列表的所有可能组合的列表它实际上是一个对象列表但为了简单起见我们将使用字符串我需要这个列表以便我可以在单元测试中测试每种可能的组合例如如果我有一个列表 var allValues new List
在 C# 中使用派生返回类型覆盖抽象属性

我有四节课请求派生请求处理程序派生处理程序 Handler 类有一个带有以下声明的属性 public abstract Request request get set DerivedHandler 需要重写此属性以便它返回 Der
不了解类 UNET 架构中的数据流，并且 Conv2DTranspose 层的输出存在问题

我对修改后的 U Net 架构的输入维度有一两个问题为了节省您的时间并更好地理解重现我的结果我将发布代码和输出尺寸修改后的U Net架构是来自的MultiResUNet架构https github com nibtehaz Mult
MKMapView 崩溃

我无法确定崩溃的具体时间因为有时会发生但大多数时候不会当添加新注释并且图钉下降时或者当图钉位置发生更改拖动时它会崩溃我的ios版本是4 3 1 Crash Thread 0 Crashed 0 libobjc A dylib
asp.net在gridview中查找控件

如何使用查找控件访问Label4 感谢您的任何帮助您可以提供
如何在共享主机上托管 codeigniter 4 网站？ [关闭]

Closed 这个问题不符合堆栈溢出指南 help closed questions 目前不接受答案我刚刚创建了一个 codeigniter4 项目我想将其上传到 sharehosting 上但我的网站无法访问它给出了服务器错误出
如何在 C# Windows 应用程序中引用网站用户控件？

我在 Windows C 应用程序中有一个解决方案其中我也有一个网站在网站中我有 1 个用户控件现在我希望在同一解决方案的其他 C 项目中使用用户控件怎么做那是不可能的您必须为 Windows 应用程序重新创建它您可以重用的是
Angular 2：路由参数更改，重新加载同一页面？

我有一个带有参数的路由当转到页面 users 123 时其中 123 是调用 ngOnInit 的参数我获取我的参数并调用我的方法来获取用户但是当我在该页面上单击第二个链接 users 456 时将不再调用 ngOnInit 因
如何使用Struts2 Jquery插件实现过滤器搜索

我正在尝试为我的 Struts2 jquery 网格实现过滤器搜索如果我搜索任何字符串通过 jquery 过滤器文本框那么它会调用我的操作类但我无法在我的操作类中获取搜索字符串我尝试在我的 Action 类中打印此行但搜索字符串
使用 scikit-learn 运行 k-fold 后如何访问数据集？

我正在尝试应用 kfold 方法但我不知道如何访问生成的训练和测试集在浏览了几个博客和 scikitlearn 用户指南后人们唯一要做的就是打印训练和测试集这可能适用于小型数据框但对于较大的数据框则没有用谁能帮我我正在使用的数

使用 scikit-learn 运行 k-fold 后如何访问数据集？

使用 scikit-learn 运行 k-fold 后如何访问数据集？ 的相关文章

随机推荐

热门标签

使用 scikit-learn 运行 k-fold 后如何访问数据集？的相关文章