TL;DR:我认为你的问题最好作为回归任务来构建,因此使用一个输出神经元,但值得尝试两者。
与非常具体的答案相比,我不太喜欢你的问题的广泛性,所以我将更深入地解释什么才是正确的表述。
在开始之前,我们应该澄清经典人工神经网络执行的两大任务:
- 分类
- 回归
他们是本质上彼此非常不同 https://math.stackexchange.com/questions/141381/regression-vs-classification;简而言之,分类试图在你的输入上贴上标签(例如,输入图像显示dog),而回归尝试预测一个数值(例如,输入数据对应于具有估计价值150万美元).
显然,您可以看到预测数值只需要(简单地)one产值。另请注意,这仅适用于这个具体的例子。可能还有其他回归用例,在这些用例中,您希望输出的维度超过 0(即单个点),而是 1D 或 2D。
一个常见的例子是图像着色 http://cs231n.stanford.edu/reports/2016/pdfs/219_Report.pdf,有趣的是,我们也可以将其框架为分类问题。提供的链接显示了两者的示例。在这种情况下,您显然必须对每个像素进行回归(或分类),这会导致多个输出神经元。
现在,为了解决您的实际问题,我想详细说明为什么首选单热编码输出(即具有与类一样多的通道的输出)的推理用于分类任务在单个神经元上。
由于我们可以认为单个神经元足以预测类别值,因此我们必须理解为什么以这种方式到达特定类别是有问题的。
分类变量、序数变量、区间变量 https://stats.idre.ucla.edu/other/mult-pkg/whatstat/what-is-the-difference-between-categorical-ordinal-and-interval-variables/
主要问题之一是type你的变量。在您的情况下,存在明确的顺序(15 比 14 好于 13 等),甚至存在间隔排序(至少在纸上),因为 15 和 13 之间的差异与 14 之间的差异相同和 12,尽管一些学者可能会反对这一点;-)
因此,您的目标是一个区间变量,因此理论上可以用于对其进行回归。稍后会详细介绍。但例如,考虑一个描述图像是否描绘猫 (0)、狗 (1) 或汽车 (2) 的变量。现在,可以说,我们甚至不能对变量进行排序(是汽车>狗,还是汽车现在这仍然对应于狗,还是更接近于汽车?但如果图像实际上描绘了一辆具有猫的属性 https://3.bp.blogspot.com/-KJfevJKhqnU/T-v4fJ6iOwI/AAAAAAAAGH8/pKyLYLa0SOU/s1600/the-pink-funny-car-cat-costume-02.jpg?
另一方面,拥有 3 个独立的神经元来反映每个类别的不同概率可以消除该问题,因为每个神经元都可以描述相对“未受干扰”的概率。
如何失去功能
另一个问题是上一个例子中如何通过网络进行反向传播的问题。传统上,分类任务利用交叉熵损失 https://ml-cheatsheet.readthedocs.io/en/latest/loss_functions.html(CE),而回归使用均方误差(MSE)作为衡量标准。这两者本质上是不同的,尤其是 CE 和 CE 的组合Softmax https://developers.google.com/machine-learning/crash-course/multi-class-neural-networks/softmax导致非常方便(且稳定)的推导 https://deepnotes.io/softmax-crossentropy.
可以说,您可以应用舍入从 1.4 得到一个简洁的类值(在这种情况下为 1),然后使用 CE 损失,但这可能会导致数值不稳定;另一方面,MSE 永远不会给你一个“明确的类别值”,而更多的是一个回归估计。
最后,问题归结为:我有分类或回归问题吗。就您而言,我认为这两种方法都可以很好地发挥作用。 (分类)网络可能无法识别不同输出类别之间的相关性;即,很有可能进入 14 年级的学生获得 3 分或更低的概率基本上为零。另一方面,由于其他原因,回归可能无法准确预测结果。
如果您有时间,我强烈鼓励您尝试这两种方法。现在,考虑到目标的区间类型,我个人会进行回归任务,并使用舍入训练完网络后并能做出准确的预测。