如何将 pandas 数据帧转换为 sklearn one-hot-encoded(数据帧/numpy 数组),其中某些列不需要编码?
mydf = pd.DataFrame({'Target':[0,1,0,0,1, 1,1],
'GroupFoo':[1,1,2,2,3,1,2],
'GroupBar':[2,1,1,0,3,1,2],
'GroupBar2':[2,1,1,0,3,1,2],
'SomeOtherShouldBeUnaffected':[2,1,1,0,3,1,2]})
columnsToEncode = ['GroupFoo', 'GroupBar']
是一个已经标签编码的数据帧,我只想对标记的列进行编码columnsToEncode
?
我的问题是我不确定是否pd.Dataframe
or the numpy
数组表示更好,以及如何将编码部分与另一部分重新合并。
到目前为止我的尝试:
myEncoder = OneHotEncoder(sparse=False, handle_unknown='ignore')
myEncoder.fit(X_train)
df = pd.concat([
df[~columnsToEncode], # select all other / numeric
# select category to one-hot encode
pd.Dataframe(encoder.transform(X_train[columnsToEncode]))#.toarray() # not sure what this is for
], axis=1).reindex_axis(X_train.columns, axis=1)
注意:我知道熊猫:获取假人 https://stackoverflow.com/questions/36285155/pandas-get-dummies / http://pandas.pydata.org/pandas-docs/stable/ generated/pandas.get_dummies.html http://pandas.pydata.org/pandas-docs/stable/generated/pandas.get_dummies.html但这在训练/测试分割中效果不佳,我需要每次折叠这样的编码。