我们应该如何解释 H2O 预测函数的结果？

2024-03-25

我已经训练并存储了一个随机森林二元分类模型。现在我正在尝试使用此模型模拟处理新的（样本外）数据。我的Python（Anaconda 3.6）代码是：

import h2o
import pandas as pd
import sys

localH2O = h2o.init(ip = "localhost", port = 54321, max_mem_size = "8G", nthreads = -1)
h2o.remove_all()

model_path = "C:/sm/BottleRockets/rf_model/DRF_model_python_1501621766843_28117";
model = h2o.load_model(model_path)

new_data = h2o.import_file(path="C:/sm/BottleRockets/new_data.csv")
print(new_data.head(10))

predict = model.predict(new_data)  # predict returns a data frame
print(predict.describe())
predicted = predict[0,0]
probability = predict[0,2]  # probability the prediction is a "1"

print('prediction: ', predicted, ', probability: ', probability)

当我运行这段代码时，我得到：

>>> import h2o
>>> import pandas as pd
>>> import sys
>>> localH2O = h2o.init(ip = "localhost", port = 54321, max_mem_size = "8G", nthreads = -1)
Checking whether there is an H2O instance running at http://localhost:54321. connected.
--------------------------  ------------------------------
H2O cluster uptime:         22 hours 22 mins
H2O cluster version:        3.10.5.4
H2O cluster version age:    18 days
H2O cluster name:           H2O_from_python_Charles_0fqq0c
H2O cluster total nodes:    1
H2O cluster free memory:    6.790 Gb
H2O cluster total cores:    8
H2O cluster allowed cores:  8
H2O cluster status:         locked, healthy
H2O connection url:         http://localhost:54321
H2O connection proxy:
H2O internal security:      False
Python version:             3.6.1 final
--------------------------  ------------------------------
>>> h2o.remove_all()
>>> model_path = "C:/sm/BottleRockets/rf_model/DRF_model_python_1501621766843_28117";
>>> model = h2o.load_model(model_path)
>>> new_data = h2o.import_file(path="C:/sm/BottleRockets/new_data.csv")

Parse progress: |█████████████████████████████████████████████████████████| 100%
>>> print(new_data.head(10))
  BoxRatio    Thrust    Velocity    OnBalRun    vwapGain
----------  --------  ----------  ----------  ----------
     1.502    55.044        0.38          37       0.845

[1 row x 5 columns]

>>> predict = model.predict(new_data)  # predict returns a data frame

drf prediction progress: |████████████████████████████████████████████████| 100%
>>> print(predict.describe())
Rows:1
Cols:3


         predict    p0                  p1
-------  ---------  ------------------  -------------------
type     enum       real                real
mins                0.8849431818181818  0.11505681818181818
mean                0.8849431818181818  0.11505681818181818
maxs                0.8849431818181818  0.11505681818181818
sigma               0.0                 0.0
zeros               0                   0
missing  0          0                   0
0        1          0.8849431818181818  0.11505681818181818
None
>>> predicted = predict[0,0]
>>> probability = predict[0,2]  # probability the prediction is a "1"
>>> print('prediction: ', predicted, ', probability: ', probability)
prediction:  1 , probability:  0.11505681818181818
>>>

我对“预测”数据框的内容感到困惑。请告诉我标有“p0”和“p1”的列中的数字是什么意思。我希望它们是概率，正如您从我的代码中看到的，我正在尝试获取预测分类（0 或 1）以及该分类正确的概率。我的代码正确地做到了这一点吗？

任何意见将不胜感激。查尔斯

p0 是选择类别 0 的概率（介于 0 和 1 之间）。

p1 是选择类别 1 的概率（介于 0 和 1 之间）。

需要记住的是，“预测”是通过对 p1 应用阈值来进行的。该阈值的选择取决于您是否想要减少误报或漏报。这不仅仅是0.5。

为“预测”选择的阈值是 max-F1。但是您可以自己提取 p1 并以任何您喜欢的方式对其进行阈值处理。

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)

python3x

h2o

我们应该如何解释 H2O 预测函数的结果？的相关文章

keras 中的增量学习

我正在寻找 scikit learn 的 keras 等效项partial fit https scikit learn org 0 15 modules scaling strategies html incremental learni
用于从深层嵌套列表/元组中提取元素的递归函数

我想编写一个从深层嵌套元组和列表中提取元素的函数假设我有这样的东西 l THIS THAT a b c THAT d e f 我想要一个没有这个和那个的简单列表 list a b c d e f 这是我到目前为止所拥有的 def
Python 3：http.server 支持 ipv6 吗？

Does http server http作为 Python 3 x 模块支持 ipv6 例如使用以下命令行代码启动网络服务器 python m http server port 从 Python 3 8 开始 python m ht
requests.iter_content() 认为文件已完成，但事实并非如此

这个问题与我见过的其他问题不同requests iter content 在那里面requests似乎认为它已成功到达我正在迭代的文件末尾实际上该文件已被截断且不完整我尝试处理的文件是一个 17gb gzip 需要丰富并存储在数据库中
在 Python 中对非英语文本进行分词

我有一个波斯语文本文件其中包含如下几行 6 7 10 11 我想从这一行生成一个单词列表对我来说单词边框是数字比如上面一行中的 6 7 等还有特点所以列表应该是我想在 Python 3 3 中执行此操作最好的方法是什么我
Git 子模块：[电子邮件受保护]：权限被拒绝（公钥）。致命：无法从远程存储库读取

我有一个问题git submodule update init remote 我收到错误权限被拒绝和克隆失败但我将 SSH 密钥添加到了我的 github 存储库中我可以拉推 git 克隆我拥有所有需要的访问权限我使用操作系统
如何看待Python的负数按位运算？

我发现很难思考 Python 和 Python3 的无限精度负数和按位运算它不是 32 位或 64 位这1左边的 s 可以被认为是无穷多个它不是很明确这就是为什么有时很难思考它是如何运作的似乎一种可行的方法是总是让它更多例如
Python3 http.server：将日志保存到文件中

我使用Python3 6编写了一个简单的HTTP服务器来重定向所有请求我写的文件可以找到here https github com kmahyyg learn py3 blob master antiscanhttp py 我可以在 Ub
防止脚本目录被添加到Python 3中的sys.path

有没有办法阻止脚本的目录被添加到python3中的sys path 由于导入在 python 中是相对的因此我遇到了导入冲突我正在处理的一个遗留项目有一个名为logger py在与内置冲突的脚本的根目录中logger 我使用的自定义构建
Flask-Mail - 基于 Flask-Cookiecutter 异步发送电子邮件

我的烧瓶项目基于烧瓶饼干切割机 https github com sloria cookiecutter flask我需要异步发送电子邮件发送电子邮件的功能由以下配置米格尔的教程 https blog miguelgrinberg com
Tweepy 流式传输错误

我正在尝试使用 tweepy 和 textblob 分析推文的情绪我执行了 pip install tweepy 并且安装成功但出现以下错误错误信息文件 C Users joshey Desktop sent py 第 2 行位于
使用python shelve跨平台

我希望得到关于 Python 中的书架数据库的一些建议问题我在 Mac 上创建了一个数据库我想在 Windows 7 上使用该数据库我使用 Python 3 2 MacOS 10 7 和 win 7 当我在 Mac 上打开并保存我
如何在 Python 中根据日期列绘制分类变量

我有这样的数据 Date Fruit 2017 01 01 Orange 2017 01 01 Apple 2017 01 08 Orange 2017 01 09 Orange 2017 01 09 Apple 我想在一个图中按日期绘制橙
python中将对象数据类型转换为字符串问题

如何将对象数据类型结构转换为字符串数据类型下面的方法不起作用该列仍然存在object转换为字符串后 astype import pandas as pd df pd DataFrame country A B C D E df dtyp
python：函数中的变量，点前面是函数名

我需要理解这个概念其中我们可以在函数定义中的变量名中使用点这里没有类定义也没有模块 Python 不应该接受包含点的变量名 def f x f author sunder f language Python print x f aut
如何在 python 中将最佳概率分布模型拟合到我的数据？

我有大约 20 000 行这样的数据 Id value 1 30 2 3 3 22 n 27 我对我的数据进行了统计平均值33 85 中位数30 99 最小值2 8 最大值206 95 置信区间0 21 所以大多数值在33左右并且有一些
如果文件为空，如何跳过文件行

python 3中的程序这是我的第一个涉及文件的程序我需要忽略注释行以开头和空行然后拆分这些行以便它们可迭代但我不断收到 IndexError 消息指出字符串索引超出范围并且程序在空行处崩溃 import os path
接收字母并返回字母表中（从 0 开始）数字位置的 Python 函数

我正在尝试创建一个 Python 函数它接收一个字母只有一个字母字符的字符串并返回该字母在字母表中从 0 开始的数字位置它不应该区分大小写而且我不能使用导入所以输入 a 应该返回 0 输入 A 也应该返回 0 输入 O 应该返回
如何在单元测试中模拟 subprocess.call

我使用的是 python 3 3 我必须测试一个使用的方法call来自 subprocess py I tried subprocess call MagicMock with patch subprocess call as TU cal
更改QLineEdit的ClearButton图标

我想在Windows 10 1909 64位上的Python 3 8和PyQt5 5 15 0 上更改我的QLineEdit的ClearButton图标稍后我想在Linux上运行代码我尝试应用此处找到的代码如何在 QLineEdit

随机推荐

如何在 sails 应用程序中生成 CSS 地图文件？

您好有一个 sails 项目其中 bootstrap 包含在 Bower json 中 dependencies bootstrap 3 2 0 所有 css 字体和 js 均已正确复制但地图文件未复制到assets vendor
Oracle 的用户定义聚合函数可以定义为与两列一起使用吗？

我想实现一个自定义回归聚合函数类似于现有的REGR SLOPE 我想要定义的函数需要获取两列作为参数例如 select T EMPLOYEE ID CUSTOM REGR SLOPE T DATE T SALARY as SALARY
CORS 支持 dl.dropboxuserconent.com？

看来我们不能再以编程方式下载内容 https blogs dropbox com developers 2013 08 programmatically download content from share links 通过浏览器中的 J
无法使用 Selenium 或 BeautifulSoup 抓取动态内容

我正在尝试从 URL 中抓取动态内容 https www prokabaddi com stats 0 102 total points statistics https www prokabaddi com stats 0 102 tot
并行计算大文件的哈希码

我想提高散列大文件的性能例如大小为数十 GB 的文件通常您使用散列函数例如 SHA 256 尽管我很可能会使用 Skein 顺序对文件的字节进行散列因此与从读取文件所需的时间相比散列会更慢快 SSD 我们将此称为方法 1 这个
如何强制 ld 使用静态库而不是共享库？

我正在尝试使用测试库的静态版本按源代码构建我有 libtest a 和 libtest so 可用所以我使用 static 选项然而看起来 gcc 链接器也在尝试搜索标准数学库的静态版本知道我可以使用什么选项来链接标准库的共享版本
为什么同一查询会得到不同的输出？

我一直在尝试回答这个问题如果行具有重叠的时间间隔则对行进行分组 https stackoverflow com questions 59656420 group rows if they have overlapping time in
Android：如何将视图添加到WindowManager，并使其始终浮动在我的应用程序顶部？

我需要一个视图显示在我的应用程序的顶部并且当它显示时它可以继续显示在我的应用程序的所有其他视图所有片段和活动的顶部它听起来像一个浮动操作按钮但将始终显示在我的应用程序的顶部我知道我可以通过向手机的 WindowManager
核心数据 - 使用同一字段获取所有实体

在我的 ios swift 应用程序中我有一个使用 Core Data 的数据库它有很多实体所有实体都有一个整数字段称为syncStatus 有可能0 1 or 2 启动时我想循环遍历所有具有syncStatus 1并将其更改为0
Lucene 查询解析器在查询条件中带有“/”

当我尝试在 Lucene 中搜索诸如解决方法修复之类的内容时它会抛出此错误 org apache lucene queryparser classic ParseException Cannot parse workaround f
带有 ArrayBlockingQueue 的 ThreadPoolExecutor

当我在我的一个项目中使用 ThreadPoolExecutor 时我开始从 Java Doc 中阅读更多有关 ThreadPoolExecutor 的内容那么谁能解释一下这行代码实际上意味着什么我知道每个参数代表什么但我想从这里的一
从 App Engine 运行时 Python 3.7 调用 Cloud Function [重复]

这个问题在这里已经有答案了我有一个运行 Python 3 7 的 App Engine 服务需要通过以下方式调用我的云函数之一并获取响应https oncall扳机我想我可以通过以下方式做到这一点 import logging fro
FB Graph / FQL：当 FB 页面显示位置时，朋友的 Current_location 有时会显示 Null

我试图在 Facebook 上获取用户所有朋友的当前位置但遇到了一个奇怪的问题当我在他们的实际 Facebook 页面上看到住在时其中一些朋友正在读出 NULL 这个错误的困难之处在于它只发生在大约 30 的情况下在其余情况下
Angularjs：服务多个 $resource url / 数据源的服务？

我有一个 Angular 服务提供程序它向我的控制器提供 json 数据效果很好 angular module myApp services ngResource factory statesProvider function res
SOAP-错误：编码：对象没有属性

我需要创建一个 SOAP 请求如下所示
查找两个数据集之间的交集

我正在生成两个与此类似的数组 x y z sphere A x y z B x 0 5 y 0 5 z 0 5 第二个数组与第一个数组有一定的偏移量我想找到这两个数组 A 和 B 的交集空间在本例中我使用了 sphere 函数但是可以
为什么Java没有复制构造函数？

为什么 Java 不像 C 那样支持复制构造函数 Java 确实如此它们只是不像 C 中那样被隐式调用我怀疑这是你真正的问题首先复制构造函数无非是 public class Blah private int foo public B
ES6 是否为对象属性引入了明确定义的枚举顺序？

ES6 是否为对象属性引入了明确定义的枚举顺序 var o 1 1 a 2 b 3 Object keys o 1 a b is this ordering guaranteed by ES6 for let k in o console
在 PIL 中保存 GIF 时透明度不一致

我正在编写可以覆盖图像并使背景透明的脚本输出应该是 GIF 格式该脚本有效但对于某些图像透明度未按预期工作这是脚本 from PIL import Image from PIL import ImageDraw from PIL
我们应该如何解释 H2O 预测函数的结果？

我已经训练并存储了一个随机森林二元分类模型现在我正在尝试使用此模型模拟处理新的样本外数据我的Python Anaconda 3 6 代码是 import h2o import pandas as pd import sys loca

我们应该如何解释 H2O 预测函数的结果？

我们应该如何解释 H2O 预测函数的结果？ 的相关文章

随机推荐

热门标签

我们应该如何解释 H2O 预测函数的结果？的相关文章