我正在尝试使用 LSTM 解决一个简单的二元分类问题。我正在尝试找出网络的正确损失函数。问题是,当我使用二元交叉熵作为损失函数时,与使用均方误差(MSE)函数相比,训练和测试的损失值相对较高。
经过研究,我发现二元交叉熵应该用于分类问题,MSE 应该用于回归问题。然而,就我而言,通过 MSE 进行二元分类,我获得了更好的精度和更小的损失值。
我不确定如何证明这些结果的合理性。为什么不使用均方误差来解决分类问题?
我想用一个例子来展示它。 假设有一个 6 类分类问题。
认为, 真实概率 = [1, 0, 0, 0, 0, 0]
Case 1:预测概率 = [0.2, 0.16, 0.16, 0.16, 0.16, 0.16]
Case 2:预测概率 = [0.4, 0.5, 0.1, 0, 0, 0]
案例 1 和案例 2 中的 MSE 为0.128 and 0.1033分别。
尽管情况 1 正确预测了实例的类别 1,但情况 1 中的损失高于情况 2 中的损失。