在多类分类任务中,对于表示“其他所有内容”的标签,样本数量应该有多大,是否有一个经验法则?
示例:我想将我的输入分类为以下之一X
类。这X + 1
当输入为“以上都不是”时,类将激活。假设我的数据集包含 10 个“正”类别中每个类别的 5,000 个样本。对于代表“未知”类的示例,我将使用可能在生产中找到的多个实际示例,但这些示例并非来自其他类。
相对于其他分布,这些负面例子的数量应该有多大?
这可能有点偏离主题,但无论如何,我认为没有通用的经验法则,这取决于您的问题和方法。
我会考虑以下因素:
- 数据的性质。这有点抽象,但您可以问问自己是否希望“其他所有”类中的示例很容易与实际类混淆。例如,如果您想在动物的一般图像中检测狗或猫,可能还有许多其他动物(例如狐狸)可能会混淆系统,但如果您的输入只有狗、猫或家具的图像,则可能不是这样很多。然而,这只是一种直觉,在其他问题中可能并不那么清楚。
- 你的模特。例如,在这是我对相关问题的回答我提到了一种在其余类的函数中对“其他所有内容”进行建模的方法,因此您可能会认为,如果输入不太相似(上一点),即使没有“其他所有内容”的示例,它也可能会起作用,因为没有其他类被触发。其他技巧,例如为每个类别赋予不同的训练“权重”(例如,根据每个类别的实例数量进行计算),可以补偿不平衡的数据集。
- 你的目标。显然,您希望您的系统是完美的,但您可能会考虑是否愿意出现误报或漏报(例如,错过狗的图像或在没有狗的情况下说有狗是否更糟糕)。如果您预计您的输入主要由“其他所有内容”的实例组成,那么您的模型偏向于该类可能是有道理的,或者可能正是因为这个原因,您希望确保不会丢弃任何可能有趣的样本。
不幸的是,判断你是否做得好的唯一好方法是在代表性测试数据集上进行实验并获得良好的指标(混淆矩阵、每类精度/召回率等)。
本文内容由网友自发贡献,版权归原作者所有,本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容,请联系:hwhale#tublm.com(使用前将#替换为@)