我是一个初学者,尝试使用 Python 中的随机森林、训练和测试数据集创建预测模型。 train["ALLOW/BLOCK"] 可以取 4 个期望值(所有字符串)中的 1 个。 test["ALLOW/BLOCK"] 是需要预测的。
y,_ = pd.factorize(train["ALLOW/BLOCK"])
y
Out[293]: array([0, 1, 0, ..., 1, 0, 2], dtype=int64)
I used predict
为了预测。
clf.predict(test[features])
clf.predict(test[features])[0:10]
Out[294]: array([0, 0, 0, 0, 0, 2, 2, 0, 0, 0], dtype=int64)
如何获取原始值而不是数字值?下面的代码实际上是在比较实际值和预测值吗?
z,_= pd.factorize(test["AUDIT/BLOCK"])
z==clf.predict(test[features])
Out[296]: array([ True, False, False, ..., False, False, False], dtype=bool)