我对深度学习不熟悉,所以这可能是一个初学者问题。
根据我的理解,多层感知器中的softmax函数负责标准化和分配每个类别的概率。
如果是这样,我们为什么不使用简单的标准化呢?
假设我们得到一个向量x = (10 3 2 1)
应用softmax,输出将是y = (0.9986 0.0009 0.0003 0.0001)
.
应用简单的归一化(将每个元素除以sum(16)
)
输出将是y = (0.625 0.1875 0.125 0.166)
.
看起来简单的标准化也可以分布概率。
那么,在输出层使用softmax函数有什么好处呢?
归一化并不总是产生概率,例如,当您考虑负值时它不起作用。或者如果值的总和为零怎么办?
但是使用 logits 的指数改变了这一点,理论上它永远不会为零,并且它可以将 logits 的整个范围映射为概率。所以它是首选,因为它确实有效。
本文内容由网友自发贡献,版权归原作者所有,本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容,请联系:hwhale#tublm.com(使用前将#替换为@)