我目前有一个包含 260,000 行和 50 列的数据框,其中 3 列是数字,其余是分类。我想要对分类列进行一次热编码,以便执行 PCA 并使用回归来预测类别。我怎样才能在 R 中完成下面的例子?
Example:
V1 V2 V3 V4 V5 .... VN-1 VN
to
V1_a V1_b V2_a V2_b V2_c V3_a V3_b and so on
您可以使用model.matrix
or sparse.model.matrix
。像这样的东西:
sparse.model.matrix(~. -1, data = your_data)
The ~.
告诉 R 你的整个表(.
)是某个假设模型的右侧,并且-1
说忽略拦截。如果没有-1
你的第一列将是一个由 1 组成的向量。
本文内容由网友自发贡献,版权归原作者所有,本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容,请联系:hwhale#tublm.com(使用前将#替换为@)