有效地将 pandas 数据帧转换为 h2o 帧

2024-02-09

我有一个 Pandas 数据框,其中有Encoding: latin-1并由以下分隔;。数据框非常大,几乎是size: 350000 x 3800。我最初想使用 sklearn 但我的数据框缺少值(NAN values)所以我无法使用 sklearn 的随机森林或 GBM。所以我不得不使用H2O's用于训练数据集的分布式随机森林。主要问题是当我这样做时数据帧没有有效转换h2o.H2OFrame(data)。我检查了提供编码选项的可能性,但文档中没有任何内容。

有人对此有什么想法吗?任何线索都可以帮助我。我还想知道是否有其他库(例如 H2O)可以非常有效地处理 NAN 值?我知道我们可以估算列,但我不应该在我的数据集中这样做,因为我的列是来自不同传感器的值,如果值不存在则意味着传感器不存在。我只能使用Python


import h2o
import pandas as pd

df = pd.DataFrame({'col1': [1,1,2], 'col2': ['César Chávez Day', 'César Chávez Day', 'César Chávez Day']})
hf = h2o.H2OFrame(df)

由于您面临的问题是由于数据集中的 NAN 数量较多,因此应该首先处理这个问题。有两种方法可以做到这一点。

  1. Replace NAN有一个明显超出范围的值。 前任。如果某个功能在 0-1 之间变化,则替换所有功能NAN该功能为 -1。

  2. 使用类Imputer http://scikit-learn.org/stable/modules/generated/sklearn.preprocessing.Imputer.html处理 NAN 值。这将取代NAN具有该特征的均值、中位数或众数。

本文内容由网友自发贡献,版权归原作者所有,本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容,请联系:hwhale#tublm.com(使用前将#替换为@)

有效地将 pandas 数据帧转换为 h2o 帧 的相关文章

随机推荐