如何对由 dropout 产生的许多薄层进行平均?在测试阶段要使用哪些重量?我对这个问题真的很困惑。因为每个细化层都会学习一组不同的权重。那么反向传播是为每个稀疏网络单独完成的吗?这些细化网络之间的权重究竟是如何共享的?因为在测试时仅使用一个神经网络和一组权重。那么使用哪一组权重呢?
据说每个训练案例都会训练不同的细化网络。培训案例到底是什么意思?你的意思是每个前向和反向传播训练一个不同的稀疏网络一次?那么下一个前向和反向传播训练另一个稀疏网络?权重是如何学习的?
训练时:
在 Dropout 中,您只需强制该层的一些激活/输出数量(dropout 概率)为零。通常,创建布尔掩码来删除这些激活。这些掩模在进行反向传播时使用。因此,梯度应用于仅在前向传播中使用的权重。
测试时:
使用所有重量。所有神经元都被保留(没有丢失),但该层的激活/输出按 p(丢失概率)缩放,以标准化该层的整个输出。
它只是一个网络,如上图所示(从这里使用:https://www.cs.toronto.edu/~hinton/absps/JMLRdropout.pdf https://www.cs.toronto.edu/~hinton/absps/JMLRdropout.pdf )
问题:我不明白你所说的稀疏网络是什么意思。
我希望这有帮助。
本文内容由网友自发贡献,版权归原作者所有,本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容,请联系:hwhale#tublm.com(使用前将#替换为@)