我有一个 Pandas 数据框,其中有Encoding: latin-1
并由以下分隔;
。数据框非常大,几乎是size: 350000 x 3800
。我最初想使用 sklearn 但我的数据框缺少值(NAN values
)所以我无法使用 sklearn 的随机森林或 GBM。所以我不得不使用H2O's
用于训练数据集的分布式随机森林。主要问题是当我这样做时数据帧没有有效转换h2o.H2OFrame(data)
。我检查了提供编码选项的可能性,但文档中没有任何内容。
有人对此有什么想法吗?任何线索都可以帮助我。我还想知道是否有其他库(例如 H2O)可以非常有效地处理 NAN 值?我知道我们可以估算列,但我不应该在我的数据集中这样做,因为我的列是来自不同传感器的值,如果值不存在则意味着传感器不存在。我只能使用Python
import h2o
import pandas as pd
df = pd.DataFrame({'col1': [1,1,2], 'col2': ['César Chávez Day', 'César Chávez Day', 'César Chávez Day']})
hf = h2o.H2OFrame(df)
由于您面临的问题是由于数据集中的 NAN 数量较多,因此应该首先处理这个问题。有两种方法可以做到这一点。
Replace NAN
有一个明显超出范围的值。
前任。如果某个功能在 0-1 之间变化,则替换所有功能NAN
该功能为 -1。
使用类Imputer http://scikit-learn.org/stable/modules/generated/sklearn.preprocessing.Imputer.html处理 NAN 值。这将取代NAN
具有该特征的均值、中位数或众数。
本文内容由网友自发贡献,版权归原作者所有,本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容,请联系:hwhale#tublm.com(使用前将#替换为@)