使用熊猫后get_dummies
在 3 个分类列上获得一个热编码数据框,我训练了(取得了一些成功)感知器模型。
现在我想根据新的观察来预测结果,它不是热编码的。
有什么办法可以记录get_dummies
列映射要重新使用吗?
据我所知,目前没有自动程序可以做到这一点。在未来的发布中sklearn
CategoricalEncoder
对于这项工作将会非常方便。如果你克隆的话,你已经可以得到它了sklearn
github master 分支并自行构建。目前我想到了两个选择:
- use
LabelEncoder+OneHotEncoder
组合,参见这个答案,例如 https://stackoverflow.com/a/50443410/9640384;
- 只需在训练 OHE 输出后检索(并存储,如果需要)列列表即可。然后运行
pd.get_dummies
在测试集/示例上。循环遍历输出测试 OHE 列,删除训练 OHE 中未出现的列,并添加测试 OHE 中缺失的列并用零填充。
本文内容由网友自发贡献,版权归原作者所有,本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容,请联系:hwhale#tublm.com(使用前将#替换为@)