如果我在较大的训练集上训练 SVM,并且类变量为 True 或 False,那么与训练集中的 False 值数量相比,True 值很少会影响训练模型/结果吗?它们应该相等吗?如果我的训练集 True 和 False 的分布不相等,我该如何解决这个问题,以便我的训练尽可能高效地完成?
数据不平衡很好,因为 SVM 应该能够对与不太可能的实例相关的错误分类错误分配更大的惩罚(例如,在您的情况下为“True”),而不是分配相同的错误权重,这会导致不良的分类器把一切都分配给多数人。然而,你会probably通过平衡数据获得更好的结果。这实际上完全取决于您的数据。
您可以人为地扭曲数据以获得更平衡的数据。你为什么不看看这篇论文:http://pages.stern.nyu.edu/~fprovost/Papers/skew.PDF http://pages.stern.nyu.edu/~fprovost/Papers/skew.PDF.
本文内容由网友自发贡献,版权归原作者所有,本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容,请联系:hwhale#tublm.com(使用前将#替换为@)