有效地将 pandas 数据帧转换为 h2o 帧

2024-02-09

我有一个 Pandas 数据框，其中有Encoding: latin-1并由以下分隔;。数据框非常大，几乎是size: 350000 x 3800。我最初想使用 sklearn 但我的数据框缺少值（NAN values）所以我无法使用 sklearn 的随机森林或 GBM。所以我不得不使用H2O's用于训练数据集的分布式随机森林。主要问题是当我这样做时数据帧没有有效转换h2o.H2OFrame(data)。我检查了提供编码选项的可能性，但文档中没有任何内容。

有人对此有什么想法吗？任何线索都可以帮助我。我还想知道是否有其他库（例如 H2O）可以非常有效地处理 NAN 值？我知道我们可以估算列，但我不应该在我的数据集中这样做，因为我的列是来自不同传感器的值，如果值不存在则意味着传感器不存在。我只能使用Python

import h2o
import pandas as pd

df = pd.DataFrame({'col1': [1,1,2], 'col2': ['César Chávez Day', 'César Chávez Day', 'César Chávez Day']})
hf = h2o.H2OFrame(df)

由于您面临的问题是由于数据集中的 NAN 数量较多，因此应该首先处理这个问题。有两种方法可以做到这一点。

Replace NAN有一个明显超出范围的值。前任。如果某个功能在 0-1 之间变化，则替换所有功能NAN该功能为 -1。
使用类Imputer http://scikit-learn.org/stable/modules/generated/sklearn.preprocessing.Imputer.html处理 NAN 值。这将取代NAN具有该特征的均值、中位数或众数。

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)

有效地将 pandas 数据帧转换为 h2o 帧的相关文章

Flask中使用的路由装饰器是如何工作的

我熟悉 Python 装饰器的基础知识但是我不明白这个用于 Flask 路由的特定装饰器是如何工作的以下是 Flask 网站上的代码片段 from flask import Flask escape request app Flask
如何使用 python 的 http.client 准确读取一个响应块？

Using http client在 Python 3 3 或任何其他内置 python HTTP 客户端库中如何一次读取一个分块 HTTP 响应一个 HTTP 块我正在扩展现有的测试装置使用 python 编写 http clie
如何为未捕获的异常处理程序编写单元测试

我有一个函数可以捕获uncaught例外情况如下有没有办法编写一个单元测试来执行uncaught exception handler 功能正常但测试正常退出 import logging def config logger logge
指示电子邮件的类型

我有以下自动化程序它将电子邮件发送给我自己并添加了特定的链接 import win32com client as win32 import easygui import tkinter as to from tkinter import
数据框 - 平均列

我在 pandas 中有以下数据框 Column 1 Column 2 Column3 Column 4 2 2 2 4 1 2 2 3 我正在创建一个数据框其中包含第 1 列和第 2 列第 3 列和第 4 列等的平均值 ColumnA
为什么第二个 request.session cookies 返回空？

我想使用 requests Session post 登录网站但是当我已经登录主页然后进入帐户页面时看来cookies还没有保存因为cookies是空的而且我无法进入正确的帐户页面 import requests from bs4
OpenCV 跟踪器：模型未在函数 init 中初始化

在视频的第一帧我运行一个对象检测器它返回对象的边界框如下所示
如何使用 Homebrew 在 Mac 上安装 Python 2 和 3？

我需要能够在 Python 2 和 3 之间来回切换我如何使用 Homebrew 来做到这一点因为我不想弄乱路径并陷入麻烦现在我已经通过 Homebrew 安装了 2 7 我会用pyenv https github com yyuu
如何使用 opencv python 计算乐高积木上的孔数？

我正在开发我的 python 项目我需要计算每个乐高积木组件中有多少个孔我将从输入 json 文件中获取有关需要计算哪个程序集的信息如下所示 img 001 red 0 blue 2 white 1 grey 1 yellow 1 r
PIL.Image.open和tf.image.decode_jpeg返回值的区别

我使用 PIL Image open 和 tf image decode jpeg 将图像文件解析为数组但发现PIL Image open 中的像素值与tf image decode jpeg不一样为什么会出现这种情况 Thanks 代
时间序列数据预处理 - numpy strides 技巧以节省内存

我正在预处理一个时间序列数据集将其形状从二维数据点特征更改为三维数据点时间窗口特征在这样的视角中时间窗口有时也称为回顾指示作为输入变量来预测下一个时间段的先前时间步长数据点的数量换句话说时间窗口是机器学习算法在对
App Engine 实体到字典

将 google app engine 实体在 python 中复制到字典对象的好方法是什么我正在使用 db Expando 对象所有属性均为扩展属性 Thanks 有一个名为foo尝试 foo dict
Discord.py 嵌入中禁用按钮/冻结按钮

I m trying to make a replica of this bot in which when I press any of the buttons below it shows a dropdown menu and you
确定分割形状几何体的“左”侧和“右”侧

我的问题是我怎样才能确定哪一个Aside and Bside的侧面已经分割的旋转矩形几何体 http nbviewer jupyter org urls dl dropbox com s ll3mchnx0jwzjnf determine
将时间添加到日期时间

我有一个像这样的日期字符串然后使用strptime 所以就像这样 my time datetime datetime strptime 07 05 15 m d Y 现在我想添加 23 小时 59 分钟my time 我努力了 timed
在matlab中，如何读取python pickle文件？

在 python 中我生成了一个 p 数据文件 pickle dump allData open myallData p wb 现在我想在Matlab中读取myallData p 我的Matlab安装在Windows 8下其中没有Pyt
如何绘制更大的边界框和仅裁剪边界框文本 Python Opencv

我正在使用 easyocr 来检测图像中的文本该方法给出输出边界框输入图像如下所示 Image 1 Image 2 使用下面的代码获得输出图像 But I want to draw a Single Bigger bounding bo
Jupyter Notebook：带有小部件的交互式绘图

我正在尝试生成一个依赖于小部件的交互式绘图我遇到的问题是当我使用滑块更改参数时会在前一个绘图之后完成一个新绘图而我预计只有一个绘图会根据参数发生变化 Example from ipywidgets import interact i
Python 中的 Unix cat 函数 (cat * > merged.txt)？ [复制]

这个问题在这里已经有答案了一旦建立了目录有没有办法在Python中使用Unix中的cat函数或类似的函数我想将 files 1 3 合并到 merged txt 我通常会在 Unix 中找到该目录然后运行 cat gt merged
描述符“join”需要“unicode”对象，但收到“str”

代码改编自here http wiki geany org howtos convert camelcase from foo bar to Foo Bar def lower case underscore to camel case s

随机推荐

CloudKit：“内部错误”(1/4000)； “无法获取签名证书”>

我在模拟器上运行该应用程序工作正常但一旦在 iPhone 设备上它就会崩溃 DiscoverUserInfo 中发生错误 discoveryUserInfo 是从下面的 Apple CloudKit 示例代码中复制的代码这是苹果的事
Grails 3 schemaExport 包含查找 sitemesh.xml 的 FileNotFoundException 警告

When 模式导出使用 Grails 3 3 应用程序的 Gradle 执行但日志中存在以下警告ddl sql被建造根据 Grails 3 文档 sitemesh xml 已被删除因此该文件自然不可用我错过了什么吗工具和版本 Gr
告诉 SCons 不要自动创建目录？

我正在尝试让 SCons 查看我需要的 git 存储库并希望使该存储库保持最新问题是我必须告诉它 git 存储库包含哪些文件才能在构建中使用它们如果我这样做 SCons 将在尝试克隆存储库之前创建存储库例如假设我想克隆 GStre
我可以在虚拟机中运行 Docker 吗？

我尝试在虚拟机上运行 Docker Host MacBook VM Parallels Windows 7 并且出现错误是否可以如果虚拟机是 Linux 那么您可以毫无问题地执行此操作在 Linux 上 Docker 本质上是一个运行
在 CMake 中设置 MSVC 运行时

我按照 CMake 常见问题解答条目中的说明进行操作如何使用静态运行时构建我的 MSVC 应用程序 https gitlab kitware com cmake community wikis FAQ how can i build my
Pandas：读取 CSV：ValueError：无法将字符串转换为浮点数

我正在尝试使用 pandas read csv 读取大型且复杂的 CSV 文件确切的命令是 pd read csv 文件名 quotechar low memory True dtype data types usecols 列 true
如何将值从类传递到活动 - Android

我有一个关于课程任务活动的新手问题我来自 C 所以我不知道这是否是满足我需要的好方法我创建了一个类 public class UDPServer private MyDatagramReceiver myDatagramReceiv
当我们在 logback-test.xml 中将日志级别设置为“DEBUG”运行时，出现“Java Heap”内存问题

Getting Java Heap当我们在 logback test xml 中运行日志级别为 DEBUG 的功能时出现内存问题我们已经运行了大约 400 个功能你能帮忙解决这个问题吗它的 Maven 项目请升级到0 9 0版本
HttpRoutePlanner - 它如何与 HTTPS 代理一起工作

我设置了 HTTPS 代理以便 HTTP 客户端可以安全地将纯 HTTP 请求发送到代理例如客户端可以向代理发送加密的 HTTP GET 请求代理将删除加密并将纯 HTTP GET 请求发送到最终站点我了解到这不是常见的设置只有
AspNet Core 集成测试，将参数传递给 WebApplicationFactory

我有设计为独立的应用程序aspnet core webapi自托管可执行文件要启动可执行文件必须将配置文件路径作为命令行参数传递例如MyServer exe config path to config file 我想通过集成测试来测试
识别属性的值是一个数组

我有一个 JSON 文件 abn 63119059513 acn 119059513 business structure Private Company ngr number 1231231 cbh number 1231231 main
在 R 中快速重命名相似名称的多个列

当我创建数据框时我有一组 43 个变量列默认命名为 X1 X2 X3 X46 我需要用 Q 替换 X 在 R 中是否有更快的方法来执行此操作或者我必须在每个 X 上单独使用 rename 请帮助我想学习实现这一目标的有效方法我是
R levelplot 调整轴

我想使用 lattice 包的 levelplot 函数将概率分布函数 PDF 绘制为 R 中的热图我将 PDF 实现为函数然后使用值范围和外部函数的两个向量生成水平图的矩阵我希望轴显示我的问题是无法在两个轴上添加适当间隔的刻度线分
SQL 连接表最大数量的限制是否适用于整个查询，还是子查询单独计算？

我读过有关61 个表连接限制 http dev mysql com doc refman 5 0 en joins limits html在 MySQL 5 中但我不确定它如何应用于以下内容 SELECT FROM SELECT FROM
在 C# 中，术语“原始”和“文字”可以互换吗？

今天早些时候的一次讨论让我质疑我对原语和文字的理解是否正确我的理解是文字类型是一种特殊的类型可以使用人类和编译器都可以理解的表示法来赋值而无需特定的类型声明 var firstName John John is literal va
以编程方式从 WPF 中的代码隐藏中删除删除线文本装饰

我在 WPF 桌面应用程序中实现以下行为时遇到问题我从代码后面动态创建 TextBlock 并将它们插入到 StackPanel 中到目前为止这有效当用户将鼠标移动到 TextBlock 上时应将删除线应用于文本块表示点击该项目即
XAML 到 HTML 的转换 - WPF RichTextBox

我遇到的问题是我有一个 WPF RichTextBox 并且我正在提取其 XAML 代码并将其保存到 txt 文件当我将生成的 XAML 代码复制粘贴到 XAMLtoHTML 转换器时如下所示http blogs msdn com w
javascript 对象字面量 - 嵌套函数和“this”关键字

在下面的例子中当functionA 被调用时 this关键字引用包含对象因此我可以访问它的属性例如theValue 我的问题我如何引用的属性myObj从内部nested functionB var myObj theValue Th
我的 Github 存储库有“主”和“主”分支 - 它们的用途是什么？

出于可访问性的原因我试图将一些本地未版本控制的代码推送到存储库中并将其发布到 GitHub 上我听从了建议here https stackoverflow com questions 3311774 how to convert exi
有效地将 pandas 数据帧转换为 h2o 帧

我有一个 Pandas 数据框其中有Encoding latin 1并由以下分隔数据框非常大几乎是size 350000 x 3800 我最初想使用 sklearn 但我的数据框缺少值 NAN values 所以我无法使用 sklea

有效地将 pandas 数据帧转换为 h2o 帧

有效地将 pandas 数据帧转换为 h2o 帧 的相关文章

随机推荐

热门标签

有效地将 pandas 数据帧转换为 h2o 帧的相关文章