H2O 和 Scikit-Learn 指标评分之间有什么区别吗？

2024-03-14

我尝试使用H2O创建一些用于二元分类问题的机器学习模型，测试结果非常好。但后来我查了一下，发现了一些奇怪的事情。出于好奇，我尝试打印测试集模型的预测。我发现我的模型实际上一直预测为 0（负），但 AUC 在 0.65 左右，并且精度不是 0.0。然后我尝试使用 Scikit-learn 来比较指标分数，并且（正如预期的那样）它们是不同的。 Scikit learn 的精度为 0.0，AUC 分数为 0.5，我认为这是正确的。这是我使用的代码：

model = h2o.load_model(model_path)
predictions = model.predict(Test_data).as_data_frame()

# H2O version to print the AUC score
auc = model.model_performance(Test_data).auc()

# Python version to print the AUC score
auc_sklearn = sklearn.metrics.roc_auc_score(y_true, predictions['predict'].tolist())

任何想法？提前致谢！

H2O 和 scikit-learn 评分之间没有区别，您只需要了解如何理解输出，以便准确比较它们。

如果您查看以下数据predictions['predict']您会看到它是一个预测类别，而不是原始预测值。 AUC 使用后者，因此您需要使用正确的列。见下文：

import h2o
from h2o.estimators.gbm import H2OGradientBoostingEstimator
h2o.init()

# Import a sample binary outcome train/test set into H2O
train = h2o.import_file("https://s3.amazonaws.com/erin-data/higgs/higgs_train_10k.csv")
test = h2o.import_file("https://s3.amazonaws.com/erin-data/higgs/higgs_test_5k.csv")

# Identify predictors and response
x = train.columns
y = "response"
x.remove(y)

# For binary classification, response should be a factor
train[y] = train[y].asfactor()
test[y] = test[y].asfactor()

# Train and cross-validate a GBM
model = H2OGradientBoostingEstimator(distribution="bernoulli", seed=1)
model.train(x=x, y=y, training_frame=train)

# Test AUC
model.model_performance(test).auc()
# 0.7817203808052897

# Generate predictions on a test set
pred = model.predict(test)

检查输出：

In [4]: pred.head()
Out[4]:
  predict        p0        p1
---------  --------  --------
        0  0.715077  0.284923
        0  0.778536  0.221464
        0  0.580118  0.419882
        1  0.316875  0.683125
        0  0.71118   0.28882
        1  0.342766  0.657234
        1  0.297636  0.702364
        0  0.594192  0.405808
        1  0.513834  0.486166
        0  0.70859   0.29141

[10 rows x 3 columns]

现在与 sklearn 进行比较：

from sklearn.metrics import roc_auc_score

pred_df = pred.as_data_frame()
y_true = test[y].as_data_frame()

roc_auc_score(y_true, pred_df['p1'].tolist())
# 0.78170751032654806

在这里您可以看到它们大致相同。 AUC 是一种近似方法，因此当您比较不同的实现时，您会看到小数点后几位后的差异。

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)

H2O 和 Scikit-Learn 指标评分之间有什么区别吗？的相关文章

使用 pandas.date_range() 生成多个日期时间，每周两个日期

我在用着pd date range start date end date freq W MON 每周一生成每周频率日期时间start date 2017 01 01 and end date 2017 12 31 这意味着每月大约生成 4
Tkinter 菜单删除项

如何删除任何菜单项例如我想删除播放 self menubar Menu self root self root config menu self menubar self filemenu2 Menu self menubar self
如何使用 python 的 http.client 准确读取一个响应块？

Using http client在 Python 3 3 或任何其他内置 python HTTP 客户端库中如何一次读取一个分块 HTTP 响应一个 HTTP 块我正在扩展现有的测试装置使用 python 编写 http clie
如何调整 matplotlib 单选按钮的大小和纵横比？

我已经尝试了几个小时来使简单的单选按钮列表的大小和纵横比正确但没有成功首先导入模块 import matplotlib pyplot as plt from matplotlib widgets import RadioButtons
检查 python 中命令行参数的数量

我是蟒蛇新手还是把脚弄湿了我正在尝试做这样的事情 import sys if len sys argv lt 3 or lt len sys argv gt 3 print This script will compare two fi
从 pyspark.sql 中的列表创建数据框

我完全陷入了有线的境地现在我有一个清单li li example data map lambda x get labeled prediction w x collect print li type li 输出就像 0 0 59 0 0
使用 Pytest 的参数化添加测试功能的描述

当其中一个测试失败时可以在测试正在测试的内容的参数化中添加描述快速了解测试失败的原因有时您不知道测试失败的原因您必须查看代码通过每个测试的描述您就可以知道例如 pytest mark parametrize num1 num2
以类型化内存视图作为成员的结构定义

目前我正在尝试让一个具有类型化内存视图的结构能够工作例如 ctypedef struct node unsigned int inds 如果 inds 不是内存视图据我所知它可以完美地工作然而通过内存视图并使用类似的东西 def
numpy：高效执行数组的复杂重塑

我正在将供应商提供的大型二进制数组读入 2D numpy 数组 tempfid M N load data data numpy fromfile file dirname fid dtype numpy dtype i4 convert
如何在 Django Rest 框架中编写“删除”操作的测试

我正在为 Django Rest Framework API 编写测试我一直在测试删除我对创建的测试工作正常这是我的测试代码 import json from django urls import reverse from re
PIL.Image.open和tf.image.decode_jpeg返回值的区别

我使用 PIL Image open 和 tf image decode jpeg 将图像文件解析为数组但发现PIL Image open 中的像素值与tf image decode jpeg不一样为什么会出现这种情况 Thanks 代
为什么在Python解释器中输入_会返回True？ [复制]

这个问题在这里已经有答案了我的翻译行为非常奇怪 gt gt gt True gt gt gt type True
NumPy 相当于 Keras 函数 utils.to_categorical

我有一个使用 Keras 进行机器学习的 Python 脚本我正在构建 X 和 Y 它们分别是特征和标签标签的构建方式如下 def main depth 10 nclass 101 skip True output True video
Flask 应用程序路由中的多个参数

烧瓶怎么写app route如果我在 URL 调用中有多个参数这是我从 AJax 调用的 URL http 0 0 0 0 8888 createcm summary VVV change Feauure 我试图写我的烧瓶app rout
无法在 PyCharm 版本 9.3.3 中安装 NumPy。 Python版本3.8.2

在 PyCharm 中安装 NumPy 时出错尝试安装 Microsoft Visual C 14 0 还是行不通 NumPy 正在通过命令安装pip3 install numpy在 cmd 终端中但是当尝试将其安装在 PyCharm
Discord.py 嵌入中禁用按钮/冻结按钮

I m trying to make a replica of this bot in which when I press any of the buttons below it shows a dropdown menu and you
Python守护进程：保持日志记录

我有一个将一些数据记录到磁盘的脚本 logging basicConfig filename davis debug log level logging DEBUG logging basicConfig filename davis er
numpy polyfit 中使用的权重值是多少以及拟合误差是多少

我正在尝试对 numpy 中的某些数据进行线性拟合 Ex 其中 w 是该值的样本数即对于点 x 0 y 0 我只有 1 个测量值该测量值是2 2 但对于这一点 1 1 我有 2 个测量值值为3 5 x np array 0 1 2 3
django jet 中的自定义徽标

我目前正在尝试对 django 管理面板的皮肤进行一些定制以使其更符合我们的品牌目前我们使用 django jet 来美化管理面板 django jet 可以自定义 css html 吗所有评论都说我应该更改一些 html 文件但我
如何绘制更大的边界框和仅裁剪边界框文本 Python Opencv

我正在使用 easyocr 来检测图像中的文本该方法给出输出边界框输入图像如下所示 Image 1 Image 2 使用下面的代码获得输出图像 But I want to draw a Single Bigger bounding bo

随机推荐

SassError：找不到要导入的样式表。 @use '~@angular/material' 作为垫子；

我使用 CLI 创建了一个 Angular 项目我正在使用 SCSS 并且我将 Angular Material 包含在自定义主题 iirc 中我添加了几个虚拟组件应用程序仍然构建得很好然后我需要使用 Angular Materia
Swift 3 类型“Any”没有下标成员

我刚刚将我的项目转换为 Swift 3 我这里有这行代码 let type self data indexPath row Type as String 但现在我得到这个错误 Type Any has no subscript member
不允许使用非成员函数重载 C++ 转换运算符的理由是什么

C 0x 添加了显式转换运算符但它们必须始终定义为 Source 类的成员这同样适用于赋值运算符它必须在 Target 类上定义当所需转换的 Source 和 Target 类彼此独立时 Source 都不能定义转换运算符 Targ
如何通过IP地址列出网络计算机上所有已安装的软件？

我想知道如何获取网络计算机上安装的软件列表我能够获取本地计算机上安装的软件列表但不确定如何提取网络内计算机上已安装软件的详细信息我使用服务器名称或网络计算机的 IP 地址作为唯一的输入下面是从本地计算机获取已安装软件的详细信息的代码
在 Swift 中比较 UIColors 时出现问题

我需要比较两个 UIColor 但由于某种原因它总是返回 false 我尝试比较使用 and isEqual 但它们似乎都不起作用 This is a sample of the colors I have created let blue
Google 地图 + jQuery：渲染错误

将 google 地图放入 jquery ui 选项卡中时地图在某些情况下无法正确显示重现 Go here http www fiveminuteargument com html map test html 单击列表链接调整浏览
使用 save() 玩框架 JPA 问题

我试图在数据库中保存一个简单的对象但这给我带来了问题这是我的对象类 Entity Table name lines public class Line extends GenericModel Id Column name line i
不允许子操作执行重定向操作。（使用部分视图）

我正在尝试使用数据库中的一些数据加载部分视图但在运行应用程序时遇到以下问题不允许子操作执行重定向操作我不知道为什么会发生这种情况因为我对 MVC 技术还很陌生这是我的PartialViewResult控制器中的方法 public
使用字符串插值内的变量指定小数位

我有一个字符串格式其中包含两个整数变量每个变量都需要格式化为可变长度 int x 1234 int y 42 Simplified real values come from method outputs so must use the
在 Qt Quick 中从 ListView 制作自定义 TableView 的规范方法

制作桌子的最佳方法是什么ListView 假设给定一个二维字符串数组并且delegate因为所有列都是Labels 仅使用 QML 时如何以及何时计算每列的最大项目宽度各内容Label不是恒定的即implicitWidth在生命周期中是
为什么我的服务总是绑定到 ipv6 localhost 而不是 ipv4？

我有一个创建 ServerSocket 并绑定到的服务localhost 7060 当我在 Android 设备上执行 netstat an 时我看到它使用 ipV6 localhost 而不是 ipv4 localhost 接口输出是
Golang - 如何将 XML 文件的一部分提取为字符串？

我的 XML 看起来像这样 a b b a
使用 Automapper 中的 Profiles 将相同类型映射到不同逻辑

我在 ASP NET MVC 网站中使用 AutoMapper 将数据库对象映射到 ViewModel 对象并且尝试使用多个配置文件来映射相同的类型但使用另一种逻辑我有通过阅读来做到这一点的想法马特的博客文章 http mhinze
将目录拆分为子模块

我在这里进行了很好的搜索但似乎没有任何东西可以回答我的问题所以就这样吧我有一个具有当前文件夹结构的 git 存储库 app folder app folder2 app bundles bundle1 app bundles bund
如何使用 Python 查找 Windows 通用应用程序数据文件夹？

我希望我的应用程序存储一些数据以供所有用户访问使用Python 我怎样才能找到数据应该去哪里如果您不想添加像 winpaths 这样的第三方模块的依赖项我建议使用 Windows 中已有的环境变量 Windows 中有哪些可用的环境变
根据某些条件登录到不同的文件

我们有一个应用程序其中我们有一个条件根据条件如果条件为真那么我们会将一些日志消息写入一个文件否则我们会将消息记录到另一个文件并且日志记录应该根据条件而不是根据日志级别进行 dropwizard 如何使用 yaml 文件这是开箱
什么是 __NSArrayI 和 __NSArrayM？如何转换为NSArray？

什么是 NSArrayI 和 NSArrayM NSArrayI 或M 导致无法识别的选择器错误如何转换为NSArray 我做了测试来解析 json twitter api gt 工作正常解析的对象是 NSCFDictionary
用于删除 unbox_any 的抖动逻辑

我正在调查此 C 代码的执行 public static void Test
想要将网站密码加密从 SHA1 转换为 SHA256

只是寻求一些建议我有一个大约有 2500 名用户的网站规模虽小但正在不断增长我通过对密码使用 SHA1 加密来构建它我已经了解到 SHA1 是不安全的并且想更改为带有盐的 SHA256 有人对如何进行这样的过渡有任何建议吗如果我
H2O 和 Scikit-Learn 指标评分之间有什么区别吗？

我尝试使用H2O创建一些用于二元分类问题的机器学习模型测试结果非常好但后来我查了一下发现了一些奇怪的事情出于好奇我尝试打印测试集模型的预测我发现我的模型实际上一直预测为 0 负但 AUC 在 0 65 左右并且精度不是 0

H2O 和 Scikit-Learn 指标评分之间有什么区别吗？

H2O 和 Scikit-Learn 指标评分之间有什么区别吗？ 的相关文章

随机推荐

热门标签

H2O 和 Scikit-Learn 指标评分之间有什么区别吗？的相关文章