如何在 scikit-learn 中正确执行交叉验证？

2024-03-12

我正在尝试对 k-nn 分类器进行交叉验证，但我对以下两种方法中哪一种正确执行交叉验证感到困惑。

training_scores = defaultdict(list)
validation_f1_scores = defaultdict(list)
validation_precision_scores = defaultdict(list)
validation_recall_scores = defaultdict(list)
validation_scores = defaultdict(list)

def model_1(seed, X, Y):
    np.random.seed(seed)
    scoring = ['accuracy', 'f1_macro', 'precision_macro', 'recall_macro']
    model = KNeighborsClassifier(n_neighbors=13)

    kfold = StratifiedKFold(n_splits=2, shuffle=True, random_state=seed)
    scores = model_selection.cross_validate(model, X, Y, cv=kfold, scoring=scoring, return_train_score=True)
    print(scores['train_accuracy'])
    training_scores['KNeighbour'].append(scores['train_accuracy'])
    print(scores['test_f1_macro'])
    validation_f1_scores['KNeighbour'].append(scores['test_f1_macro'])
    print(scores['test_precision_macro'])
    validation_precision_scores['KNeighbour'].append(scores['test_precision_macro'])
    print(scores['test_recall_macro'])
    validation_recall_scores['KNeighbour'].append(scores['test_recall_macro'])
    print(scores['test_accuracy'])
    validation_scores['KNeighbour'].append(scores['test_accuracy'])

    print(np.mean(training_scores['KNeighbour']))
    print(np.std(training_scores['KNeighbour']))
    #rest of print statments

看来第二个模型中的 for 循环是多余的。

def model_2(seed, X, Y):
    np.random.seed(seed)
    scoring = ['accuracy', 'f1_macro', 'precision_macro', 'recall_macro']
    model = KNeighborsClassifier(n_neighbors=13)

    kfold = StratifiedKFold(n_splits=2, shuffle=True, random_state=seed)
    for train, test in kfold.split(X, Y):
        scores = model_selection.cross_validate(model, X[train], Y[train], cv=kfold, scoring=scoring, return_train_score=True)
        print(scores['train_accuracy'])
        training_scores['KNeighbour'].append(scores['train_accuracy'])
        print(scores['test_f1_macro'])
        validation_f1_scores['KNeighbour'].append(scores['test_f1_macro'])
        print(scores['test_precision_macro'])
        validation_precision_scores['KNeighbour'].append(scores['test_precision_macro'])
        print(scores['test_recall_macro'])
        validation_recall_scores['KNeighbour'].append(scores['test_recall_macro'])
        print(scores['test_accuracy'])
        validation_scores['KNeighbour'].append(scores['test_accuracy'])

    print(np.mean(training_scores['KNeighbour']))
    print(np.std(training_scores['KNeighbour']))
    # rest of print statments

我在用StratifiedKFold我不确定我是否需要像 model_2 函数中那样的 for 循环cross_validate当我们传递时，函数已经使用了 splitcv=kfold作为一个论点。

我没有打电话fit方法，这样可以吗？做cross_validate自动调用还是我需要调用fit打电话之前cross_validate?

最后，如何创建混淆矩阵？我是否需要为每次折叠创建它，如果是，如何计算最终/平均混淆矩阵？

The 文档 https://scikit-learn.org/stable/modules/generated/sklearn.model_selection.cross_validate.html在此类问题上可以说是你最好的朋友；从这个简单的例子来看，很明显你不应该使用for循环也不调用fit。调整示例以使用KFold像你一样做：

from sklearn.model_selection import KFold, cross_validate
from sklearn.datasets import load_boston
from sklearn.tree import DecisionTreeRegressor

X, y = load_boston(return_X_y=True)
n_splits = 5
kf = KFold(n_splits=n_splits, shuffle=True)

model = DecisionTreeRegressor()
scoring=('r2', 'neg_mean_squared_error')

cv_results = cross_validate(model, X, y, cv=kf, scoring=scoring, return_train_score=False)
cv_results

Result:

{'fit_time': array([0.00901461, 0.00563478, 0.00539804, 0.00529385, 0.00638533]),
 'score_time': array([0.00132656, 0.00214362, 0.00134897, 0.00134444, 0.00176597]),
 'test_neg_mean_squared_error': array([-11.15872549, -30.1549505 , -25.51841584, -16.39346535,
        -15.63425743]),
 'test_r2': array([0.7765484 , 0.68106786, 0.73327311, 0.83008371, 0.79572363])}

如何创建混淆矩阵？我需要为每个折叠创建它吗

没有人能告诉你，如果你need为每个折叠创建一个混淆矩阵 - 这是你的选择。如果您选择这样做，最好跳过cross_validate并“手动”执行该过程 - 请参阅我的答案如何显示每个交叉验证折叠的混淆矩阵和报告（召回率、精度、fmeasure） https://stackoverflow.com/questions/53531167/how-to-display-confusion-matrix-and-report-recall-precision-fmeasure-for-eac/55050146#55050146.

如果是，如何计算最终/平均混淆矩阵？

不存在“最终/平均”混淆矩阵；如果你想计算比k如链接答案中所述（每个 k 倍一个），您需要有一个单独的验证集......

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)

如何在 scikit-learn 中正确执行交叉验证？的相关文章

使用 pandas.date_range() 生成多个日期时间，每周两个日期

我在用着pd date range start date end date freq W MON 每周一生成每周频率日期时间start date 2017 01 01 and end date 2017 12 31 这意味着每月大约生成 4
ValueError：请使用“Layer”实例初始化“TimeDistributed”层

我正在尝试构建一个可以在音频和视频样本上进行训练的模型但出现此错误ValueError Please initialize TimeDistributed layer with a Layer instance You passed Te
将 yerr/xerr 绘制为阴影区域而不是误差线

在 matplotlib 中如何将误差绘制为阴影区域而不是误差条例如而不是忽略示例图中各点之间的平滑插值这需要进行一些手动插值或者只是获得更高分辨率的数据您可以使用pyplot fill between https matpl
定义Python源代码编码的正确方法

PEP 263 http www python org dev peps pep 0263 定义如何声明Python源代码编码通常 Python 文件的前两行应以以下内容开头 usr bin python coding
如何使用 python 的 http.client 准确读取一个响应块？

Using http client在 Python 3 3 或任何其他内置 python HTTP 客户端库中如何一次读取一个分块 HTTP 响应一个 HTTP 块我正在扩展现有的测试装置使用 python 编写 http clie
McNemar 在 Python 中的测试以及分类机器学习模型的比较 [关闭]

Closed 此问题正在寻求书籍工具软件库等的推荐不满足堆栈溢出指南 help closed questions 目前不接受答案有没有用 Python 实现的好的 McNemar 测试我在 Scipy stats 或 Scikit
指示电子邮件的类型

我有以下自动化程序它将电子邮件发送给我自己并添加了特定的链接 import win32com client as win32 import easygui import tkinter as to from tkinter import
如何使用 Python boto3 获取 redshift 中的列名称

我想使用 python boto3 获取 redshift 中的列名称创建Redshift集群将数据插入其中配置的机密管理器配置 SageMaker 笔记本打开Jupyter Notebook写入以下代码 import boto3
python array(10,1) 和 array(10,) 之间的区别

我正在尝试将 MNIST 数据集加载到数组中当我使用 X train y train X test y test mnist load data 我得到一个数组 y test 10000 但我希望它的形状为 10000 1 数组 1000
将 pandas 剪切操作转换为常规字符串

我明白了 pandas cut 操作的输出 0 0 20 1 0 20 2 0 20 3 0 20 4 0 20 5 0 20 6 0 20 7 0 20 8 0 20 9 0 20 如何将 0 20 转换为 0 20 我正在这样做 str
是否有一个包可以维护所有带有符号的货币列表？

是否有一个 python 包提供所有或相当完整货币的列表与符号如美元的有优秀的pycountry 贪财的 https github com limist py moneyed and ccy http code google com
OpenCV 跟踪器：模型未在函数 init 中初始化

在视频的第一帧我运行一个对象检测器它返回对象的边界框如下所示
如何使用 Homebrew 在 Mac 上安装 Python 2 和 3？

我需要能够在 Python 2 和 3 之间来回切换我如何使用 Homebrew 来做到这一点因为我不想弄乱路径并陷入麻烦现在我已经通过 Homebrew 安装了 2 7 我会用pyenv https github com yyuu
时间序列数据预处理 - numpy strides 技巧以节省内存

我正在预处理一个时间序列数据集将其形状从二维数据点特征更改为三维数据点时间窗口特征在这样的视角中时间窗口有时也称为回顾指示作为输入变量来预测下一个时间段的先前时间步长数据点的数量换句话说时间窗口是机器学习算法在对
NumPy 相当于 Keras 函数 utils.to_categorical

我有一个使用 Keras 进行机器学习的 Python 脚本我正在构建 X 和 Y 它们分别是特征和标签标签的构建方式如下 def main depth 10 nclass 101 skip True output True video
为什么这个 if 语句会导致语法错误

我正在尝试设置一个 elif 语句如果用户按下 Enter 键代码将继续但是我不断遇到语法错误 GTIN 0 while True try GTIN int input input your gtin 8 number if len
如何从列表类别中对 pandas 数据框进行排序？

所以我在下面有这个数据集我想根据我的列表从名称列进行排序以及按 A 升序和按 B 降序排序 import pandas as pd import numpy as np df1 pd DataFrame from items A 1
Python守护进程：保持日志记录

我有一个将一些数据记录到磁盘的脚本 logging basicConfig filename davis debug log level logging DEBUG logging basicConfig filename davis er
仅允许正小数

在我的 Django 模型中我创建了一个如下所示的小数字段 price models DecimalField u Price decimal places 2 max digits 12 显然价格为负或零是没有意义的有没有办法将小数
非法指令：MacOS High Sierra 上有 4 条指令

我正在尝试在 pygame 3 6 中制作一个看起来像聊天的窗口我刚刚将我的 MacBook 更新到版本 10 13 6 在我这样做之前它工作得很好但在我收到消息之后非法指令 4 Code import pygame from pyg

随机推荐

如何选择ID以特定字符串开头和结尾的所有元素？

在CSS中我怎样才能选择所有 tr 元素所在的位置id开始于section 并以 dummy 例如我想选择样式并将其应用于以下内容 tr s tr td td tr tr td td tr 以下 CSS3 选择器将完成这项工作 tr i
注册自定义 URI 协议以处理从 XAML 加载的自定义资源

我正在开发一个项目其中松散的 XAML 部分以及一些相关的 IronPython 代码将由客户端应用程序动态加载和执行客户端将使用自定义 WCF 服务和一些本地缓存来检索 XAML 支持脚本和相关资源图标图像等我想注册一个
是否可以使用下划线按多个值过滤数组值？

我有以下值数组 id 1 field map id 2 field dog id 3 field map 我需要找出字段等于的元素dog and map 我知道我可以使用 filter方法并传递迭代器函数但我想知道的是是否有更好的解决方案
输入列中最近邻的平均值的缺失值

我有一个数据框 df pd DataFrame data 676 0 670 0 668 index 2012 01 31 00 00 00 2012 02 29 00 00 00 2012 03 31 00 00 00 2012 04 3
RejectedExecutionException 和 clojure 并发

在将一些 clojure 代码部署到新服务器时我遇到了以下问题RejectedExecutionException和无反应的代理 REPL 中的小例子例如 pmap range 10 似乎工作正常但是运行pmap or pcalls
Unix 哲学在 Ruby 社区中失宠了吗？ [关闭]

Closed 这个问题是基于意见的 help closed questions 目前不接受答案 Unix 哲学的支持者 David Korn 几年前在用于编写整体 Perl 脚本而不通过管道重定向等使用 Unix 工具包 Unix 不仅
C++ 访问者模式：为什么每个派生的访问者都应该实现 Accept()？

我见过几个演示访问者模式的示例在所有这些中每个派生的访问元素都实现通常称为 Accept 方法在颜色层次结构中此方法可能如下所示 void Red accept Visitor v v gt visit this void Blue
C问题：没有警告？

main printf Hello World 为什么即使我们声明 main 返回类型为 int gcc 编译器也不会产生警告因为您没有使用 Wall 标志当你这样做时你应该得到 foo c 1 warning return type
带有 Inheritance.JOINED 的 Spring 数据存储库

我在我的应用程序中设计了实体以遵循休眠的继承策略Inheritance JOINED 基本抽象类是UserTable具体的派生类是ClientTable和OwnerTable 我想要实现的目标是拥有一个存储库我可以在其中find any
如何向 TextView 添加换行符？ [复制]

这个问题在这里已经有答案了可能的重复如何在 Android 中向 TextView 添加换行符 https stackoverflow com questions 2840608 how do i add a newline to a
Python 中版本名称“cp27”或“cp35”的含义是什么？

Python 中版本名称 cp27 或 cp35 的含义是什么就像里面的文件一样https pypi python org pypi gensim downloads https pypi python org pypi gensim d
多页 PrintDocument 中的不同方向（操作方法）

我有一个PrintDocument有好几页该文档中的一页必须位于景观方向而不是Portrail 由于文档中的每个页面都会触发 PrintPage 事件在该事件处理程序的最开始我设置了PrintPageEventArgs PageSet
如何删除 X 个字符之后的所有单词

我读了这篇文章 sed 删除行中除前 5 个字符之外的剩余字符 https stackoverflow com questions 10718326 sed delete remaining characters in line excep
Makefile 匹配任何规则作为中间

考虑这个简单的 Makefile one two echo one two three echo two three four echo three all hi one 正如预期的那样 make all将产生 echo three thr
如何在 Azure 数据工厂中执行查找？

我是一名 SSIS 开发人员我在 SSIS 中研究了很多 SQL 存储过程查找概念但是当来到 Azure 数据工厂时我不知道如何使用 SQL 存储过程执行查找有人可以指导我吗提前致谢杰伊 Azure 数据工厂 ADF 更像是一种
在react-router中连接多个查询参数[重复]

这个问题在这里已经有答案了我在用react router domv 5 2 0 我想在 URL 中添加多个查询参数但我不知道如何完成它我的路线如下
禁用自动更正类型不适用于 UITextfield

我创造了RegisterViewController包含电子邮件密码和确认密码字段在电子邮件字段中它始终在 QuickType 键盘栏上显示建议的电子邮件但其他字段不显示任何内容它如何知道哪个字段是电子邮件或不是我发誓我没有在文
Swift 中的通用完成处理程序

我有一个方法它有一个名为performRequest 这需要一个JSONRequest范围 JSONRequest看起来像这样 public typealias JSONCompletionHandler Entity NSError g
Play Framework - 如何继承超类？

我有一个扩展 Model 的 User 类以及两个我想扩展 User 类的类用户 java Entity Table name users public class User extends Model implements RoleH
如何在 scikit-learn 中正确执行交叉验证？

我正在尝试对 k nn 分类器进行交叉验证但我对以下两种方法中哪一种正确执行交叉验证感到困惑 training scores defaultdict list validation f1 scores defaultdict list v

如何在 scikit-learn 中正确执行交叉验证？

如何在 scikit-learn 中正确执行交叉验证？ 的相关文章

随机推荐

热门标签

如何在 scikit-learn 中正确执行交叉验证？的相关文章