我正在尝试使用随机森林和逻辑回归来预测二元变量。我的类别严重不平衡(Y=1 的大约 1.5%)。
随机森林中的默认特征重要性技术基于分类准确性(错误率) - 这已被证明对于不平衡类来说是一个不好的衡量标准(请参阅here http://www.biomedcentral.com/1471-2105/14/119 and ).
用于 RF 特征选择的两个标准 VIM 是基尼 VIM 和排列 VIM。粗略地说,感兴趣的预测变量的基尼系数 VIM 是该预测变量在被选择进行分裂时在整个森林中生成的基尼杂质减少量的总和,并按树木数量进行缩放。
我的问题是:这种方法是否在 scikit-learn 中实现(就像在 R 包中一样)party
)?或者也许是一个解决方法?
PS:这个问题与an other https://stats.stackexchange.com/questions/160329/how-can-1-more-feature-disrupt-a-random-forests-confusion-matrix.
scoring
只是测试样例中使用的性能评估工具,不进入内部DecisionTreeClassifier
每个分裂节点的算法。您只能指定criterion
(每个分裂节点的内部损失函数的种类)是gini
or information entropy
对于树算法。
scoring
可以在交叉验证上下文中使用,其目标是调整一些超参数(例如max_depth
)。在你的情况下,你可以使用GridSearchCV
使用评分函数调整一些超参数roc_auc
.
本文内容由网友自发贡献,版权归原作者所有,本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容,请联系:hwhale#tublm.com(使用前将#替换为@)