普通relu, y=max(0, x), 相当于无限多个bernoulli分布,即无限多个骰子
relu6, y= min(max(0,x), 6), 相当于有六个bernoulli分布,即6个硬币,同时抛出正面,这样鼓励网络学习到稀疏特征。
网络里面每一个输出n,相当于n个bernoulli分布的叠加。
通过实验发现,用6,效果比较好。所以选用了6
参考:
https://stackoverflow.com/questions/47220595/why-the-6-in-relu6
https://arxiv.org/pdf/1601.00034.pdf, 这篇好像很复杂,谁读懂了,给讲讲。