StatsModels的predict函数如何与scikit-learn的roc_auc_score交互？

2024-01-05

我正在尝试理解predictPython statsmodels 中用于 Logit 模型的函数。它的文档是here https://www.statsmodels.org/stable/generated/statsmodels.discrete.discrete_model.LogitResults.predict.html.

当我构建 Logit 模型并使用predict，它返回从 0 到 1 的值，而不是 0 或 1。现在我读到这句话说这些是概率，我们需要一个阈值。Python statsmodel.api 逻辑回归 (Logit) https://stackoverflow.com/questions/26528019/python-statsmodel-api-logistic-regression-logit

现在，我想生成 AUC 数字，我使用roc_auc_score来自 sklearn (docs https://scikit-learn.org/stable/modules/generated/sklearn.metrics.roc_auc_score.html).

这是我开始感到困惑的时候。

当我将 Logit 模型中的原始预测值（概率）放入roc_auc_score作为第二个参数y_score，我得到的合理 AUC 值约为 80%。如何roc_auc_score函数知道我的哪个概率等于 1，哪个概率等于 0？我没有机会设定门槛。
当我使用 0.5 的阈值手动将概率转换为 0 或 1 时，我得到的 AUC 约为 50%。为什么会出现这种情况呢？

这是一些代码：

m1_result = m1.fit(disp = False)

roc_auc_score(y, m1_result.predict(X1))

AUC: 0.80

roc_auc_score(y, [1 if X >=0.5 else 0 for X in m1_result.predict(X1)])

AUC: 0.50

为什么会这样呢？

你计算 AUC 的第二种方法是错误的；根据定义，AUC 需要概率，而不是阈值处理后生成的硬类预测 0/1，如您在此处所做的那样。所以，你的 AUC 是 0.80。

您在AUC计算中不自行设定阈值；粗略地说，正如我所解释的别处 https://stackoverflow.com/questions/47104129/getting-a-low-roc-auc-score-but-a-high-accuracy/47111246#47111246，AUC 衡量二元分类器的性能对所有可能的决策阈值进行平均.

如果在这里再次解释 AUC 计算的基本原理和细节就显得有些过分了；相反，这些其他 SE 线程（以及其中的链接）将帮助您了解这个想法：

在分类中，测试准确率和 AUC 分数有什么区别？ https://stackoverflow.com/questions/60905517/in-classification-what-is-the-difference-between-the-test-accuracy-and-the-auc
AUC 与标准准确度的优点 https://datascience.stackexchange.com/questions/806/advantages-of-auc-vs-standard-accuracy
ROC AUC 分数较低但准确率较高 https://stackoverflow.com/questions/47104129/getting-a-low-roc-auc-score-but-a-high-accuracy
比较模型之间的 AUC、对数损失和准确度分数 https://stackoverflow.com/questions/58610117/comparing-auc-log-loss-and-accuracy-scores-between-models

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)

StatsModels的predict函数如何与scikit-learn的roc_auc_score交互？的相关文章

设置 Pyenv 的路径

我正在尝试在我的服务器中设置 Pyenv 的加载路径 bashrc file 我正在关注这个tutorial https realpython com intro to pyenv 它要求我们在哪里设置pyenv到加载路径然而在我的 b
Python 3.6 ZeroMQ (PyZMQ) asyncio pub sub Hello World

我刚刚开始使用 ZeroMQ 我正在尝试让 Hello World 在 Python 3 6 中与 PyZMQ 和 asyncio 一起使用我试图将模块的功能与发布订阅代码分离因此有以下类设置 Edit 1 最小化示例 Edit 2
Pandas如何按时间段过滤DataFrame

我有一个包含下表的文件 Name AvailableDate totalRemaining 0 X3321 2018 03 14 13 00 00 200 1 X3321 2018 03 14 14 00 00 200 2 X3321 20
在监督分类中，使用partial_fit() 的MLP 比使用fit() 的表现更差

我正在使用的学习数据集是灰度图像flatten让每个像素代表一个单独的样本第二张图像在训练后将被逐像素分类Multilayer perceptron MLP 前一个分类器我遇到的问题是MLP当它一次接收到所有训练数据集时表现更好 fit
Python 3 sqlite 参数化 SQL 查询

我一直在尝试使用 Python 3 和 sqlite 模块进行参数化 SQL 查询并且仅使用一个变量就成功了但是当使用两个变量时我得到一个IndexError tuple index out of range错误关于导致此错误的原
删除 HoloViews 中的 Bokeh 徽标

是否可以从 HoloViews 生成的图中删除 Bokeh 徽标没有什么反对的只是在某些报告中显示它可能没有意义我知道在 Bokeh 中我可以简单地执行以下操作 p bkp figure p toolbar logo None UPD
在python中读取PASCAL VOC注释

我在 xml 文件中有注释例如这个它遵循 PASCAL VOC 约定
ValueError：使用火炬张量时需要解压的值太多

对于神经网络项目我使用 Pytorch 并使用 EMNIST 数据集已经给出的代码加载到数据集中 train dataset dsets MNIST root data train True transform transforms T
将两个反斜杠替换为一个反斜杠

我想用单个反斜杠替换带有两个反斜杠的字符串但是替换似乎不接受作为替换字符串这是解释器的输出 gt gt gt import tempfile gt gt gt temp folder tempfile gettempdir gt g
Streamlabs API 405 响应代码

我正在尝试使用Streamlabs API https dev streamlabs com Streamlabs API 使用 Oauth2 来创建应用程序因此首先我将使用我的应用程序的用户发送到一个授权链接其中包含我的应用程序的客
如果文件为空，如何跳过文件行

python 3中的程序这是我的第一个涉及文件的程序我需要忽略注释行以开头和空行然后拆分这些行以便它们可迭代但我不断收到 IndexError 消息指出字符串索引超出范围并且程序在空行处崩溃 import os path
Django 2.0 haystack 更新索引，重建索引抛出错误

我使用 django 2 0 和 haystack whoosh 作为搜索我按照文档中的说明进行配置发生的问题是当我跑步时 manage py rebuild index它显示此错误 Traceback most recent call
如何指定聚类的距离函数？

我想对给定距离的点进行聚类奇怪的是似乎 scipy 和 sklearn 聚类方法都不允许指定距离函数例如在sklearn cluster AgglomerativeClustering 我唯一可以做的就是输入一个亲和力矩阵这将非常
使用 Python 3 动态插入到 sqlite

我想使用 sqlite 写入多个表但我不想提前手动指定查询有数十种可能的排列例如 def insert sqlite tablename data list global dbc dbc execute insert into tab
如何在 scikit 中加载 CSV 数据并将其用于朴素贝叶斯分类

尝试加载自定义数据以在 Scikit 中执行 NB 分类需要帮助将示例数据加载到 Scikit 中然后执行 NB 如何加载目标的分类值使用相同的数据进行训练和测试或使用完整的数据集进行测试 Sl No Member ID Membe
从sklearn PCA获取特征值和向量

如何获取 PCA 应用程序的特征值和特征向量 from sklearn decomposition import PCA clf PCA 0 98 whiten True converse 98 variance X train clf f
ValueError：不支持连续[重复]

这个问题在这里已经有答案了我正在使用 GridSearchCV 进行线性回归的交叉验证不是分类器也不是逻辑回归我还使用 StandardScaler 对 X 进行标准化我的数据框有 17 个特征 X 和 5 个目标 y 观察约11
如何在PIL中从ImageDraw中获取图像？

我在我的项目中使用 PIL 并且有 ImageDraw 对象我想获取在 ImageDraw 对象上绘制的图像我如何获取图像这是你想要的 from PIL import Image ImageDraw im Image new RGBA
使用 python requests 模块时出现 HTTP 503 错误

我正在尝试发出 HTTP 请求但当前可以从 Firefox 浏览器访问的网站响应 503 错误代码本身非常简单在网上搜索一番后我添加了user Agent请求参数但也没有帮助有人能解释一下如何消除这个 503 错误吗顺便说一句
为什么 Pickle 协议 4 中的 Pickle 文件是协议 3 中的两倍，而速度却没有任何提升？

我正在测试 Python 3 4 我注意到 pickle 模块有一个新协议因此我对 2 个协议进行了基准测试 def test1 pickle3 open pickle3 wb for i in range 1000000 pickle

随机推荐

组合两个聚合源

有什么简单的组合方法feed and feed2 我想要的物品来自feed2要添加到feed 我也想避免重复feed当问题同时使用 WPF 和 Silverlight 标记时可能已经有项目 Uri feedUri new Uri http
php+curl无法设置post方法

我尝试使用 php 和curl 发出发布请求这是我的代码 PHP 5 3 5 and curl 7 18 2 ch curl init if empty save cookie curl setopt ch CURLOPT COOKIEJ
Vuetify 多个 v-select 所需规则不起作用

重现步骤如果它的多个选择所需的规则不起作用如果它不是多个也可以预期行为规则也适用于多重选择实际行为如果是多重选择则规则不起作用复制代码 div div
Json.NET - 控制类对象属性反序列化

我有一个模特班Link它是用 JSON Net 反序列化的 public class Link JsonConstructor internal Link int id Id id public int Id get internal se
迭代 std::set/std::map 的时间复杂度是多少？

迭代一次的时间复杂度是多少std set std multiset std map std multimap 我相信它与集合地图的大小是线性的但不太确定语言标准中有规定吗在C 11工作草案中可以找到答案迭代器要求一般 p8
Visual Studio 2017 扩展开发

您好我想将我的扩展升级到 Visual Studio 2017 但我得到了Microsoft VisualStudio Shell RegistrationAttribute错误但我已经添加了此引用我在编译时收到此错误是否有任何参考
JNI：拦截本机方法输出

目前我正在开发一个项目我需要拦截java本机方法调用的结果以进行进一步分析有多种方法可以实现这一点但我选择的方法是在本机绑定时将 java 本机方法的地址重新绑定到我自己的包装函数的地址该函数将自行调用初始本机函数然后返回其结
将ListView的文本设置在中心 - android

我尝试在中设置 ListView 的文本center的布局我使用 LinearLayout 并设置重力中心但它总是显示在left 这是布局
GKE主节点

在GKE中当我们创建节点时会有一个master节点同时会创建很多worker节点我怀疑主节点是我们创建的提到的副本还是GKE单独创建的主节点 gke 集群形成的拓扑结构例如网状星形是什么在 GKE 中如果您创建一个标准
将 freetype 位图复制到 opengl 纹理时出现问题

我正在尝试生成字符的所有位图 to 并将它们添加到一个长纹理中我打算将它们放置在固定宽度的纹理中但现在我只想确保这个概念可行 But I am having problems Instead of getting the expecte
在移动 Safari 中按 Tab 键浏览输入字段会使浏览器跳转

有没有办法既能专注于球场又不会出现这种不和谐的动画当键盘可见时这种行为尤其糟糕 Demo http plnkr co edit 9OydOFO0KUeKuaH8u70A p info http plnkr co edit 9OydOF
设置graphql的最大文件上传大小（golang）

我用 golang 编写了一个服务器可以使用多部分形式将文件上传到该服务器我想扩大最大上传大小在我正在使用的实现的文档站点上我发现了以下内容上传最大尺寸此选项指定用于将请求正文解析为 multipart form data 的最
在显式结构中相互覆盖多个 CLR 引用字段？

Edit 我很清楚这对于值类型非常有效我的具体问题是关于将其用于引用类型 Edit2 我还知道您不能在结构中覆盖引用类型和值类型这仅适用于相互覆盖多个引用类型字段的情况我一直在修改 NET C 中的结构我刚刚发现你可以这样做 usi
确定代码圈复杂度的最佳工具[关闭]

就目前情况而言这个问题不太适合我们的问答形式我们希望答案得到事实参考资料或专业知识的支持但这个问题可能会引发辩论争论民意调查或扩展讨论如果您觉得这个问题可以改进并可能重新开放访问帮助中心 help reopen questi
DataContractSerialiser 和 Serialized 的问题

我有一些来自 Net 2 0 程序集的类这些类被标记为可序列化在我的项目中我在我的 Classes 中使用这些类它们标记有 DataContract IsReference true 和 DataMember 现在我遇到了问题 Da
因为文档的框架是沙盒的并且未设置“允许脚本”权限

我编写了一个程序生成一个带有以下标头的 html 文件但我没有iframe根本没有更不用说在沙箱里了当我在浏览器托管在 Jenkins 服务器上中打开页面时我看不到 css 这些是错误安全策略我看过一些关于堆栈溢出的帖子
manifestPlaceholders 值不是字符串

在我的 AndroidManifest xml 文件中我有以下应动态填充的元数据标记
Redux Provider 不传递 Props/State

我使用 create react app 创建了一个 React 应用程序并向其中添加了 Redux 添加后
为什么 wget 忽略 URL 中的查询字符串？

我想使用wget下载以下18个HTML文件 http www ted com talks quick list sort date order desc page 18 http www ted com talks quick list s
StatsModels的predict函数如何与scikit-learn的roc_auc_score交互？

我正在尝试理解predictPython statsmodels 中用于 Logit 模型的函数它的文档是here https www statsmodels org stable generated statsmodels discre

StatsModels的predict函数如何与scikit-learn的roc_auc_score交互？

StatsModels的predict函数如何与scikit-learn的roc_auc_score交互？ 的相关文章

随机推荐

热门标签

StatsModels的predict函数如何与scikit-learn的roc_auc_score交互？的相关文章