我正在尝试调试我的分类器的问题。问题在于,尽管准确率接近 80%,但它总是针对给定输入预测相同的类别。
我训练 CNN 来检测两个类别之间的差异。 A 类有 2575 个 jpeg,B 类有 665 个 jpeg。
这是否会导致我的 CNN 始终预测同一类别的问题?每个类别中的项目数量是否太不平衡?一般来说,如果我使两个类的大小相同(665 jpeg?),我的性能会提高吗?
这个问题似乎是类不平衡的情况,有不同的方法来处理它:
-
加权损失:您可以通过计算a来惩罚多数损失函数的奖励加权交叉熵 https://stackoverflow.com/questions/35155655/loss-function-for-class-imbalanced-binary-classifier-in-tensor-flow.
-
重新采样数据:正如您所提到的,您还可以对多数类别进行下采样,以平衡类别。您还可以对少数类别进行上采样以使其均匀。
-
生成增强数据:由于您正在处理图像,因此您可以对少数类进行上采样,然后使用
data augmentation
在这些图像上,这解决了类不平衡问题,并解决了过度拟合问题并提高了泛化能力。
- 以及以上所有内容的组合。
本文内容由网友自发贡献,版权归原作者所有,本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容,请联系:hwhale#tublm.com(使用前将#替换为@)