H2O R api：从网格搜索中检索最佳模型

2024-04-15

我正在使用h2oR 中的包（v 3.6.0），并且我构建了一个网格搜索模型。现在，我正在尝试访问最小化验证集上的 MSE 的模型。在Python中sklearn，这在使用时很容易实现RandomizedSearchCV:

## Pseudo code:
grid = RandomizedSearchCV(model, params, n_iter = 5)
grid.fit(X)
best = grid.best_estimator_

不幸的是，这在 h2o 中并不那么简单。这是您可以重新创建的示例：

library(h2o)
## assume you got h2o initialized...

X <- as.h2o(iris[1:100,]) # Note: only using top two classes for example 
grid <- h2o.grid(
    algorithm = 'gbm',
    x = names(X[,1:4]),
    y = 'Species',
    training_frame = X,
    hyper_params = list(
        distribution = 'bernoulli',
        ntrees = c(25,50)
    )
)

Viewing grid打印大量信息，包括这部分：

> grid
ntrees distribution status_ok                                                                 model_ids
 50    bernoulli        OK Grid_GBM_file1742e107fe5ba_csv_10.hex_11_model_R_1456492736353_16_model_1
 25    bernoulli        OK Grid_GBM_file1742e107fe5ba_csv_10.hex_11_model_R_1456492736353_16_model_0

通过一些挖掘，您可以访问每个单独的模型并查看每个可以想象的指标：

> h2o.getModel(grid@model_ids[[1]])
H2OBinomialModel: gbm
Model ID:  Grid_GBM_file1742e107fe5ba_csv_10.hex_11_model_R_1456492736353_18_model_1 
Model Summary: 
  number_of_trees model_size_in_bytes min_depth max_depth mean_depth min_leaves max_leaves mean_leaves
1              50                4387         1         1    1.00000          2          2     2.00000


H2OBinomialMetrics: gbm
** Reported on training data. **

MSE:  1.056927e-05
R^2:  0.9999577
LogLoss:  0.003256338
AUC:  1
Gini:  1

Confusion Matrix for F1-optimal threshold:
           setosa versicolor    Error    Rate
setosa         50          0 0.000000   =0/50
versicolor      0         50 0.000000   =0/50
Totals         50         50 0.000000  =0/100

Maximum Metrics: Maximum metrics at their respective thresholds
                      metric threshold    value idx
1                     max f1  0.996749 1.000000   0
2                     max f2  0.996749 1.000000   0
3               max f0point5  0.996749 1.000000   0
4               max accuracy  0.996749 1.000000   0
5              max precision  0.996749 1.000000   0
6           max absolute_MCC  0.996749 1.000000   0
7 max min_per_class_accuracy  0.996749 1.000000   0

并带有一个lot经过挖掘，你终于可以得到这个：

> h2o.getModel(grid@model_ids[[1]])@model$training_metrics@metrics$MSE
[1] 1.056927e-05

为了得到一个应该是模型选择的顶级指标，这似乎需要做很多繁琐的工作。在我的情况下，我有一个包含数百个模型的网格，而我当前的 hacky 解决方案似乎不太“R 式”：

model_select_ <- function(grid) {
  model_ids <- grid@model_ids
  min = Inf
  best_model = NULL

  for(model_id in model_ids) {
    model <- h2o.getModel(model_id)
    mse <- model@model$training_metrics@metrics$MSE
    if(mse < min) {
      min <- mse
      best_model <- model
    }
  }

  best_model
}

对于机器学习实践如此核心的东西来说，这似乎有点矫枉过正，而且让我感到奇怪的是，h2o 没有一种“更干净”的方法来提取最佳模型，或者至少是模型指标。

我错过了什么吗？是否没有“开箱即用”的方法来选择最佳模型？

是的，有一种简单的方法可以提取 H2O 网格搜索的“顶部”模型。还有一些实用函数可以提取所有模型指标（例如h2o.mse）您一直在尝试访问。有关如何执行这些操作的示例可以在H2O-R/演示 https://github.com/h2oai/h2o-3/tree/master/h2o-r/demos and h2o-py/演示 https://github.com/h2oai/h2o-3/tree/master/h2o-py/demos上的子文件夹h2o-3 https://github.com/h2oai/h2o-3GitHub 存储库。

由于您使用的是 R，因此这里有一个相关代码示例 https://github.com/h2oai/h2o-3/blob/master/h2o-r/demos/H2O_tutorial_eeg_eyestate_NOPASS.ipynb其中包括网格搜索和排序结果。您还可以在 R 文档中找到如何访问此信息h2o.getGrid功能。

打印出所有模型的 auc，按验证 AUC 排序：

auc_table <- h2o.getGrid(grid_id = "eeg_demo_gbm_grid", sort_by = "auc", decreasing = TRUE)
print(auc_table)

以下是输出示例：

H2O Grid Details
================

Grid ID: eeg_demo_gbm_grid 
Used hyper parameters: 
  -  ntrees 
  -  max_depth 
  -  learn_rate 
Number of models: 18 
Number of failed models: 0 

Hyper-Parameter Search Summary: ordered by decreasing auc
   ntrees max_depth learn_rate                  model_ids               auc
1     100         5        0.2 eeg_demo_gbm_grid_model_17 0.967771493797284
2      50         5        0.2 eeg_demo_gbm_grid_model_16 0.949609591795923
3     100         5        0.1  eeg_demo_gbm_grid_model_8  0.94941792664595
4      50         5        0.1  eeg_demo_gbm_grid_model_7 0.922075196552274
5     100         3        0.2 eeg_demo_gbm_grid_model_14 0.913785959685157
6      50         3        0.2 eeg_demo_gbm_grid_model_13 0.887706691652792
7     100         3        0.1  eeg_demo_gbm_grid_model_5 0.884064379717198
8       5         5        0.2 eeg_demo_gbm_grid_model_15 0.851187402678818
9      50         3        0.1  eeg_demo_gbm_grid_model_4 0.848921799270639
10      5         5        0.1  eeg_demo_gbm_grid_model_6 0.825662907513139
11    100         2        0.2 eeg_demo_gbm_grid_model_11 0.812030639460551
12     50         2        0.2 eeg_demo_gbm_grid_model_10 0.785379521713437
13    100         2        0.1  eeg_demo_gbm_grid_model_2  0.78299280750123
14      5         3        0.2 eeg_demo_gbm_grid_model_12 0.774673686150002
15     50         2        0.1  eeg_demo_gbm_grid_model_1 0.754834657912535
16      5         3        0.1  eeg_demo_gbm_grid_model_3 0.749285131682721
17      5         2        0.2  eeg_demo_gbm_grid_model_9 0.692702793188135
18      5         2        0.1  eeg_demo_gbm_grid_model_0 0.676144542037133

表中的第一行包含具有最佳 AUC 的模型，因此下面我们可以获取该模型并提取验证 AUC：

best_model <- h2o.getModel(auc_table@model_ids[[1]])
h2o.auc(best_model, valid = TRUE)

为了h2o.getGrid函数能够按验证集上的指标进行排序，您需要实际传递h2o.grid函数avalidation_frame。在上面的示例中，您没有传递validation_frame，因此您无法评估验证集上网格中的模型。

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)

H2O R api：从网格搜索中检索最佳模型的相关文章

Python re无限执行

我正在尝试执行这段代码 import re pattern r w w s re compiled re compile pattern results re compiled search COPRO HORIZON 2000 HOR p
指示电子邮件的类型

我有以下自动化程序它将电子邮件发送给我自己并添加了特定的链接 import win32com client as win32 import easygui import tkinter as to from tkinter import
zsh：未找到命令：使用 Big Sur Mac 的终端上的 R

我从官方 cran 网站安装了 R 我可以从 Rstudio 运行 R 但是当我尝试从终端使用 R 时我得到以下结果 base ege Eges MBP R zsh command not found R base ege Eges MB
从 pyspark.sql 中的列表创建数据框

我完全陷入了有线的境地现在我有一个清单li li example data map lambda x get labeled prediction w x collect print li type li 输出就像 0 0 59 0 0
以类型化内存视图作为成员的结构定义

目前我正在尝试让一个具有类型化内存视图的结构能够工作例如 ctypedef struct node unsigned int inds 如果 inds 不是内存视图据我所知它可以完美地工作然而通过内存视图并使用类似的东西 def
将 pandas 剪切操作转换为常规字符串

我明白了 pandas cut 操作的输出 0 0 20 1 0 20 2 0 20 3 0 20 4 0 20 5 0 20 6 0 20 7 0 20 8 0 20 9 0 20 如何将 0 20 转换为 0 20 我正在这样做 str
如何从数据框中删除少于 5 个观察值的个体 [重复]

这个问题在这里已经有答案了为了澄清这个问题我将简要描述数据中的每一行data frame是一个观察值列代表与该观察值相关的变量包括观察到什么个体观察时间观察地点等我想排除过滤观察值少于 5 个的个体换句话说如果 in
如何使用 Homebrew 在 Mac 上安装 Python 2 和 3？

我需要能够在 Python 2 和 3 之间来回切换我如何使用 Homebrew 来做到这一点因为我不想弄乱路径并陷入麻烦现在我已经通过 Homebrew 安装了 2 7 我会用pyenv https github com yyuu
python 中的 h2o 框架子集

如何在 python 中对 h2o 框架进行子集化如果 x 是一个 df 并且 Origin 是一个变量那么在 pandas 中我们通常可以通过以下方式进行子集化 x x Origin AAF 但使用 h2o 框架会出现以下错误 H2O
Python MySQL 操作错误：1045，“用户 root@'localhost' 的访问被拒绝

我试图通过以下方式从我的 python 程序访问数据库 db mysql connect host localhost user Max passwd maxkim db TESTDB cursor db cursor 但是我在第一行代码
通过 r markdown 中的循环创建代码片段

如同如何使用R中的knitr创建一个包含代码块和文本的循环 https stackoverflow com questions 36373630 how to create a loop that includes both a code
PIL.Image.open和tf.image.decode_jpeg返回值的区别

我使用 PIL Image open 和 tf image decode jpeg 将图像文件解析为数组但发现PIL Image open 中的像素值与tf image decode jpeg不一样为什么会出现这种情况 Thanks 代
为什么在Python解释器中输入_会返回True？ [复制]

这个问题在这里已经有答案了我的翻译行为非常奇怪 gt gt gt True gt gt gt type True
NumPy 相当于 Keras 函数 utils.to_categorical

我有一个使用 Keras 进行机器学习的 Python 脚本我正在构建 X 和 Y 它们分别是特征和标签标签的构建方式如下 def main depth 10 nclass 101 skip True output True video
基于值而不是类型的单次调度

我在 Django 上构建 SPA 并且有一个庞大的功能其中包含许多功能if用于检查我的对象字段的状态名称的语句像这样 if self state new do some logic if self state archive do s
确定分割形状几何体的“左”侧和“右”侧

我的问题是我怎样才能确定哪一个Aside and Bside的侧面已经分割的旋转矩形几何体 http nbviewer jupyter org urls dl dropbox com s ll3mchnx0jwzjnf determine
R data.table fwrite 到 fread 空间分隔符并清空

我在使用 fread 以作为分隔符和散布的空白值时遇到问题例如这个 dt lt data table 1 5 1 5 1 5 make a simple table dt 3 V2 NA add a blank in the midd
django jet 中的自定义徽标

我目前正在尝试对 django 管理面板的皮肤进行一些定制以使其更符合我们的品牌目前我们使用 django jet 来美化管理面板 django jet 可以自定义 css html 吗所有评论都说我应该更改一些 html 文件但我
如何绘制更大的边界框和仅裁剪边界框文本 Python Opencv

我正在使用 easyocr 来检测图像中的文本该方法给出输出边界框输入图像如下所示 Image 1 Image 2 使用下面的代码获得输出图像 But I want to draw a Single Bigger bounding bo
如何通过点击复制 folium 地图上的标记位置？

I am able to print the location of a given marker on the map using folium plugins MousePosition class GeoMap def update

随机推荐

struct - 使用 qsort 对 C 字符串进行排序

我正在对一堆 IP 进行排序但由于某种原因它们的顺序错误我不太确定问题出在哪里 66 249 71 3 190 148 164 245 207 46 232 182 190 148 164 245 190 148 164 245 20
Google 应用已发布到内部测试轨道，但无法找到/下载

我已成功完成 APK 到内部测试轨道的发布过程但是当我尝试使用下面屏幕截图中的在 GOOGLE PLAY 上查看链接查看 Google Play 商店上下载的应用程序时 it opens a new window with the
超链接在 Android UC 浏览器中不起作用

我被一个问题困扰我正在尝试通过放置在我的网站中的超链接打开 Android 应用程序下面是链接 href intent Intent action com example myapp category android intent ca
在 Objective-C 中，我可以在 c 浮点数组上声明 @property 吗？

thing h interface Thing NSObject float stuff 30 property float stuff end thing m implementation Thing synthesize stuff e
玩！没有正确关闭 H2

我正在使用 Play 编写一个部署在 Tomcat 中的 Web 应用程序因为应用程序不会处理太多数据所以我将默认的 H2 数据库与 Hibernate 一起使用当我想要部署新版本的应用程序时我关闭 tomcat 擦除旧的 web
如何使 bash 脚本与一个又一个命令一起工作？

我有一个如下所示的 bash 脚本首先它将sorted bam 文件作为输入并使用 stringtie 工具将每个样本gtf 作为输出然后每个样本 gtf 的路径将被赋予到 mergelist txt 中然后对它们使用 strin
如何跟踪 celery 中的重试次数

在 Celery 中如何跟踪当前的重试我知道我可以做这样的事情 app task bind True default retry delay 900 max retries 5 def send email self sender No
活动开启两次

我有一个使用的应用程序城市飞艇 http urbanairship com 用于推送通知当通知到达并且用户单击它时我的应用程序中的活动 A 应该打开并执行某些操作我已经安装了BroadcastReceiver如图所示在文档中 http
在 C++ 中将数组转换为集合

有没有更简单的方法使用 C 将数组转换为集合而不是循环遍历其元素最好使用标准模板库对于所有标准库容器类型请使用构造函数 http en cppreference com w cpp container set set std set
ASP.NET Owin OAuth (Google / Facebook) 正在重定向到默认的 login.aspx，而不是远程登录页面

我正在使用 Owin 库包括 Google 和 Facebook 设置 OAuth 从表面上看 Owin 启动课程注册得很好我发现我没有被重定向到 Facebook 或 Google 的相应登录页面而是被重定向到默认的 login a
从 SDK 上的“getLastKnownLocation”获取 null

我有一个与位置 API 相关的问题我尝试了以下代码 LocationManager lm LocationManager getSystemService Context LOCATION SERVICE Location loc get
避免 D3.js 中子节点重叠

我正在使用 D3 js 构建一个树结构显示 Facebook 用户和他她的 Facebook 好友根节点是用户子节点是好友我的 UI 中有固定宽度问题是子节点将相互重叠 var nodes tree nodes root rev
使用 Resharper 7 测试运行程序进行 Jasmine 测试的堆栈跟踪

如何让 Resharper 7 测试运行程序显示 Jasmine 测试的堆栈跟踪我的设置是 Resharper 7 在 Jasmine 中构建测试运行器和 PhantomJs 执行任何失败的测试时错误消息始终以以下内容结尾 Excep
jquery-ui - 取消拖动转义键

我有一个可拖动的列表divs 和一个可放置区域在 chrome FF 和 IE9 中鼠标拖放功能运行良好我想添加键盘交互拖拽div使用按键时应恢复到列表esc钥匙所以首先我这样做了 document keyup function
ng-grid 行模板中的日期格式

我创建了一个具有以下列定义的 ng grid columns field CompanyPkid visible false field CompanyName visible false field StartDate visible f
如何让用户能够使用我的应用程序播放视频？

昨晚刚刚花了几个小时为 Honeycomb 开发了一个非常漂亮的视频播放器现在我当然希望人们能够使用它如何让我的应用程序监听接收视频播放广播我猜这与manifest xml文件但我无法在 Android 开发者网站上找到任何有关
然后 Groupby 检查行匹配并计算该值的并发实例数

我有这个数据框 car color years max years 0 audi black 1 7 1 audi blue 2 7 2 audi purple 4 7 3 audi black 6 7 4 bmw blue 1 5 5 b
为什么 CAS（原子）操作比同步或易失性操作更快

据我了解 synchronized关键字将本地线程缓存与主内存同步 volatile 关键字基本上总是在每次访问时从主内存中读取变量当然访问主内存比本地线程缓存要昂贵得多因此这些操作的成本很高然而 CAS 操作使用低级硬件操作但仍
有条件的 Mercurial 忽略文件

我在 Mercurial 中有一个文件我希望开发机器提取该文件但我希望部署服务器不提取该文件它具有开发机器没有的特殊模块这是可能的还是我应该有一个自定义的推送到服务器解决方案而不是仅仅进行 hg pull 执行此操作的典型方法是
H2O R api：从网格搜索中检索最佳模型

我正在使用h2oR 中的包 v 3 6 0 并且我构建了一个网格搜索模型现在我正在尝试访问最小化验证集上的 MSE 的模型在Python中sklearn 这在使用时很容易实现RandomizedSearchCV Pseudo code

H2O R api：从网格搜索中检索最佳模型

H2O R api：从网格搜索中检索最佳模型 的相关文章

随机推荐

热门标签

H2O R api：从网格搜索中检索最佳模型的相关文章