sklearn 中留一交叉验证的 ROC 曲线

2023-12-14

我想绘制一个ROC曲线的分类器使用留一法交叉验证.

好像有人问过类似的问题here但没有任何答复。

在另一个问题中here据称：

为了使用 LeaveOneOut 获得有意义的 ROC AUC，您需要计算每次折叠的概率估计（每个折叠只包含一个观察），然后计算所有这些的集合上的 ROC AUC 概率估计。

此外，在 scikit-learn 官方网站上有一个类似的示例，但使用 KFold 交叉验证（https://scikit-learn.org/stable/auto_examples/model_selection/plot_roc_crossval.html#sphx-glr-auto-examples-model-selection-plot-roc-crossval-py).

So 对于留一法交叉验证案例，我正在考虑收集测试集上的所有概率预测（一次一个样本），并在获得所有折叠的预测概率后，计算并绘制 ROC 曲线。

这看起来还可以吗？我看不到任何其他方法来实现我的目标。

这是我的代码：

from sklearn.svm import SVC
import numpy as np, matplotlib.pyplot as plt,  pandas as pd
from sklearn.model_selection import cross_val_score,cross_val_predict,  KFold,  LeaveOneOut, StratifiedKFold
from sklearn.metrics import roc_curve, auc
from sklearn import datasets

# Import some data to play with
iris = datasets.load_iris()
X_svc = iris.data
y = iris.target
X_svc, y = X_svc[y != 2], y[y != 2]

clf = SVC(kernel='linear', class_weight='balanced', probability=True, random_state=0)
kf = LeaveOneOut()

all_y = []
all_probs=[]
for train, test in kf.split(X_svc, y):
    all_y.append(y[test])
    all_probs.append(clf.fit(X_svc[train], y[train]).predict_proba(X_svc[test])[:,1])
all_y = np.array(all_y)
all_probs = np.array(all_probs)

fpr, tpr, thresholds = roc_curve(all_y,all_probs)
roc_auc = auc(fpr, tpr)
plt.figure(1, figsize=(12,6))
plt.plot(fpr, tpr, lw=2, alpha=0.5, label='LOOCV ROC (AUC = %0.2f)' % (roc_auc))
plt.plot([0, 1], [0, 1], linestyle='--', lw=2, color='k', label='Chance level', alpha=.8)
plt.xlim([-0.05, 1.05])
plt.ylim([-0.05, 1.05])
plt.xlabel('False Positive Rate')
plt.ylabel('True Positive Rate')
plt.title('Receiver operating characteristic example')
plt.legend(loc="lower right")
plt.grid()
plt.show()

我相信代码是正确的，拆分也是正确的。我添加了几行以验证实现和结果：

from sklearn.model_selection import cross_val_score,cross_val_predict,  KFold,  LeaveOneOut, StratifiedKFold
from sklearn.metrics import roc_curve, auc
from sklearn import datasets

# Import some data to play with
iris = datasets.load_iris()
X_svc = iris.data
y = iris.target
X_svc, y = X_svc[y != 2], y[y != 2]

clf = SVC(kernel='linear', class_weight='balanced', probability=True, random_state=0)
kf = LeaveOneOut()
if kf.get_n_splits(X_svc) == len(X_svc):
    print("They are the same length, splitting correct")
else:
    print("Something is wrong")
all_y = []
all_probs=[]
for train, test in kf.split(X_svc, y):
    all_y.append(y[test])
    all_probs.append(clf.fit(X_svc[train], y[train]).predict_proba(X_svc[test])[:,1])
all_y = np.array(all_y)
all_probs = np.array(all_probs)
#print(all_y) #For validation 
#print(all_probs) #For validation

fpr, tpr, thresholds = roc_curve(all_y,all_probs)
print(fpr, tpr, thresholds) #For validation
roc_auc = auc(fpr, tpr)
plt.figure(1, figsize=(12,6))
plt.plot(fpr, tpr, lw=2, alpha=0.5, label='LOOCV ROC (AUC = %0.2f)' % (roc_auc))
plt.plot([0, 1], [0, 1], linestyle='--', lw=2, color='k', label='Chance level', alpha=.8)
plt.xlim([-0.05, 1.05])
plt.ylim([-0.05, 1.05])
plt.xlabel('False Positive Rate')
plt.ylabel('True Positive Rate')
plt.title('Receiver operating characteristic example')
plt.legend(loc="lower right")
plt.grid()
plt.show()

The If线的目的只是确保进行分割n时间、地点n是给定数据集的观测值数量。这是因为正如文档所述，LeaveOneOut 的工作原理与Kfold(n_splits=n) and LeaveOneOut(p=1)。此外，在打印预测概率值时，它们表现良好，能够理解曲线。恭喜您获得 1.00AUC！

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)

sklearn 中留一交叉验证的 ROC 曲线的相关文章

获取 .wav 文件长度或持续时间

我正在寻找一种方法来找出 python 中音频文件 wav 的持续时间到目前为止我已经了解了 pythonwave图书馆 mutagen pymedia pymad我无法获取 wav 文件的持续时间 Pymad给了我持续时间但它不一致
使用python查找txt文件中字母出现的次数

我需要从 txt 文件中读取该字母并打印 txt 文件中出现的次数到目前为止我已经能够在一行中打印内容但计数有问题有人可以指导吗 infile open grades txt content infile read for char
使用 django-rest-framework 设置对象级权限

尝试使用 django rest framework 最干净最规范地管理 django guardian 对象级权限我想将对象的读取权限 module view object 分配给在执行 POST 时发出请求的用户我的基于阶级的观点
在python中将数据库表写入文件的最快方法

我正在尝试从数据库中提取大量数据并将其写入 csv 文件我正在尝试找出最快的方法来做到这一点我发现在 fetchall 的结果上运行 writerows 比下面的代码慢 40 with open filename a as f writ
按边距（“全部”）值列对 Pandas 数据透视表进行排序

我试图根据 pandas 数据透视表中的行总和对最后一列边距 aggrfunc 进行降序排序我知道我在这里错过了一些简单的东西但我无法弄清楚数据框数据透视表 WIDGETS DATE 2 1 16 2 2 16 2 3 16 Al
如何通过 python 多处理利用所有核心

我一直在摆弄Python的multiprocessing现在已经使用了一个多小时的功能尝试使用并行化相当复杂的图形遍历函数multiprocessing Process and multiprocessing Manager import
使用 Paramiko 进行 DSA 密钥转发？

我正在使用 Paramiko 在远程服务器上执行 bash 脚本在其中一些脚本中存在与其他服务器的 ssh 连接如果我只使用 bash 不使用 Python 我的 DSA 密钥将被第一个远程服务器上的 bash 脚本转发并使用以连接
如何确保 re.findall() 停止在正确的位置？

这是我的代码 a import re re findall r lt title gt lt title gt a 结果是 title aaa
Python将文本文件解析为嵌套字典

考虑以下数据结构 HEADER1 key value key value HEADER2 key value key value HEADER3 key value HEADER4 key value key value 原始数据中没有缩进
Spark 和 Python 使用自定义文件格式/生成器作为 RDD 的输入

我想问一下 Spark 中输入的可能性我可以看到从http spark apache org docs latest programming guide html http spark apache org docs latest pro
两个不同长度的数据帧的列之间的余弦相似度？

我在 df1 中有文本列在 df2 中有文本列 df2 的长度将与 df1 的长度不同我想计算 df1 text 中每个条目与 df2 text 中每个条目的余弦相似度并为每场比赛给出分数输入样本 df1 mahesh suresh
查找 Pandas DF 行中的最短日期并创建新列

我有一个包含多个日期的表有些日期将为 NaN 我需要找到最旧的日期所以一行可能有 DATE MODIFIED WITHDRAWN DATE SOLD DATE STATUS DATE 等因此对于每一行一个或多个字段中都会有一个日期
给定一个排序数组，就地删除重复项，使每个元素仅出现一次并返回新长度

完整的问题我开始在线学习 python 但对这个标记为简单的问题有疑问给定一个排序数组就地删除重复项使得每个元素只出现一次并返回新的长度不分配另一个数组的额外空间您必须通过修改输入来完成此操作数组就地具有 O 1 额外内
Ubuntu systemd 自定义服务因 python 脚本而失败

希望获得有关 Ubuntu 中的 systemd 守护进程服务的一些帮助我写了一个 python 脚本来禁用 Dell XPS 上的触摸屏这更像是一个问题而不是一个有用的功能该脚本可以工作但我不想一直启动它这就是为什么我想到编写
可以使用哪些技术来衡量 pandas/numpy 解决方案的性能

Question 如何简洁全面地衡量下面各个功能的性能 Example 考虑数据框df df pd DataFrame Group list QLCKPXNLNTIXAWYMWACA Value 29 52 71 51 45 76 68 6
检测是否从psycopg2游标获取？

假设我执行以下命令 insert into hello username values me 我跑起来就像 cursor fetchall 我收到以下错误 psycopg2 ProgrammingError no results to fe
无法通过 Python 子进程进行 SSH

我需要通过堡垒 ssh 进入机器因此该命令相当长 ssh i
minizinc python 安装

我通过 anaconda 提示符在 python 上安装了 minizinc 就像其他软件包一样 pip install minizinc 该软件包表示已成功安装我可以导入该模块但是我正在遵循基本示例https minizinc py
如何给URL添加变量？

我正在尝试从网站收集数据我有一个 Excel 文件其中包含该网站的所有不同扩展名 F i www example com example2 我有一个脚本可以成功从网站中提取 HTML 但现在我想为所有扩展自动执行此操作然而当我说 s
带 Flask 的 RPI dht22：无法将第 4 行设置为输入 - 等待 PulseIn 消息超时

我正在尝试制作一个 Raspberry Pi 3 REST API 使用 DHT22 提供温度和湿度整个代码 from flask import Flask jsonify request from sds011 import SDS01

随机推荐

mysql其他表中子项的总价

我有两个表一个存储数据子级和父级层次结构以及其他路径和后代 userid parent price 1 null 20 2 1 20 3 1 20 4 2 20 5 2 20 6
如何在不指定URL的情况下打开默认的android浏览器？

我对此失去了理智我想打开用户的默认网络浏览器我可以用这个 startActivity new Intent Intent ACTION VIEW Uri parse http google com 打开浏览器并将用户引导至该 URL 但
使用网格恢复“无效”不会使用 jQuery UI Draggable 返回起始位置

简而言之如果您将draggable与网格一起使用并在可拖动项目上设置revert invalid 它们不会返回到您开始拖动它们的完全相同的位置它们会返回到靠近您开始拖动它们的位置的地方非常奇怪这很可能是用户界面中的一个错误如果是这
长按识别器结束后调用 wkwebviewdecidePolicyForNavigationAction

我试图覆盖原来的 wkwebview 操作表首先我禁用了原始的 wkactionsheetwebView evaluateJavaScript document body style webkitTouchCallout none co
如何在 Python 中对存储在文件中的非常大的列表进行打乱？

我需要确定性地生成一个包含 0 到 2 32 1 数字的随机列表这将是一种天真的并且完全不起作用的做法只是为了清楚我想要什么 import random numbers range 2 32 random seed 0 random
MYSQL 自连接如何工作？

我最近问了一个关于自加入的问题我得到了很好的答案该查询旨在查找紧随事件 1 1 天的事件 2 的 ID 开始日期和价格该代码运行良好但我不明白怎么做有人可以尽可能彻底地解释查询的不同部分是什么以及它们的作用吗 SELECT eve
如何使用数组的最后一个元素对集合进行排序

我的问题是我下面有一个集合 id 被忽略 value 10 r v 1 v 3 value 2 r v 4 v 1 value 100 r v 4 v 1 v 10 value 3 r 我如何按数组 r 的最后一个值对其进行排序也就是说
重载类中的函数调用运算符

在我的教授给我的 h 文件中他写道 double operator double x const 重载的要点是将 x 作为双精度值读入并使用它来计算存储在类对象 Term 中的多项式我在课堂实现中想到的是 double operato
如何获取文本溢出：mozilla 中的省略号类型样式 (...)

我正在尝试在 Mozilla 中获取省略号我发现了一些 jquery 插件有助于在 Mozilla 中形成省略号但是当大量数据到来时它无法处理页面中形成良好的脚本错误我认为实际上 jquery 逐字处理每个单词这需要花费大量时间来
Cygwin 不编译 stod

我正在尝试编译这个示例代码 include
Android：ArrayList 将项目移动到位置 0

我有一个数组列表我需要确保某个特定项目位于 0 位置如果不是我需要将其移动到那里该项目有一个isStartItem布尔值这样我就可以轻松找到我需要位于位置 0 的特定项目但是如何将其移动到正确的位置呢我假设我需要使用这样的东西
MapView 在对话框内显示较暗的地图[重复]

这个问题在这里已经有答案了我正在尝试在对话框窗口内显示谷歌地图对于此对话框我使用以下代码行 final Dialog dialog new Dialog SetProfileOnlineActivity this dialog req
如何（在运行时）检查一个类是否是另一个类的子类？

假设我有一个花色类和四个花色子类红心黑桃方块梅花 class Suit class Heart Suit class Spade Suit class Diamond Suit class Club Suit 我有一个方法它接收西
如何正确输入 Apollo 客户端 defaultOptions？

我正在像这样设置 Apollo 客户端 const defaultOptions watchQuery fetchPolicy cache and network errorPolicy ignore query fetchPolicy c
冒号“:”在 SQL 查询中起什么作用？

什么是在查询中代表 INSERT INTO MyTable ID VALUES myId 它如何获取所需的值 Edit 还有那个标志叫什么我想用谷歌搜索但它的名字是什么查询中代表什么 A 绑定变量绑定变量允许多次重复使用单个 S
防止按下 Enter 键时提交表单

I have a form with two text boxes one select drop down and one radio button When the enter key is pressed I want to call
为什么 rxjs 的 mergeMap 将数组变成单独的对象

我根本不是 Typescript Javascript 或前端开发人员我继承了Angular 13项目有一个函数返回Observable
jQuery Mobile 如何在 jsfiddle.net 中工作？

I have 这个简单的小提琴它使用 jQuery mobile 但它不起作用问我缺少什么在管理资源下您还需要添加 jQM css 文件 http code jquery com mobile 1 0b2 jquery mob
在 TemplateField 中用 Headertemplate 替换 HeaderText

我有一个带有模板字段列的网格视图 TemplateFields 是这样的
sklearn 中留一交叉验证的 ROC 曲线

我想绘制一个ROC曲线的分类器使用留一法交叉验证好像有人问过类似的问题here但没有任何答复在另一个问题中here据称为了使用 LeaveOneOut 获得有意义的 ROC AUC 您需要计算每次折叠的概率估计每个折叠只包含一个

sklearn 中留一交叉验证的 ROC 曲线

sklearn 中留一交叉验证的 ROC 曲线 的相关文章

随机推荐

热门标签

sklearn 中留一交叉验证的 ROC 曲线的相关文章