我正在使用来自 UCI 的克利夫兰心脏病数据集用于分类,但我不明白target属性。
数据集描述说值从 0 到 4,但属性描述说:
0:
1:> 50% 冠状动脉疾病
我想知道如何解释这个问题,这个数据集是多类还是二元分类问题?我必须将值 1-4 分组到一个类别(存在疾病)吗?
如果您正在处理不平衡的数据集,则应该使用重采样技术以获得更好的结果。在数据集不平衡的情况下,分类器始终“预测”最常见的类别,而不对特征进行任何分析。
你应该尝试 SMOTE,它基于已经存在的元素来合成少数类的元素。它从少数类中随机选取一个点并计算该点的 k 最近邻。
我还使用了交叉验证 K 折方法和 SMOTE,交叉验证可确保模型从数据中获取正确的模式。
在衡量模型性能时,准确度指标会产生误导,尽管存在较多的误报,但其仍显示出较高的准确度。使用 F1 分数和 MCC 等指标。
参考 :
https://www.kaggle.com/rafjaa/resampling-strategies-for-imbalanced-datasets
本文内容由网友自发贡献,版权归原作者所有,本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容,请联系:hwhale#tublm.com(使用前将#替换为@)