CS231N第六第七课时的一些笔记,如何训练神经网络是一个比较琐碎的事情,所以整理了一下,以后训练Neuron Network的时候可以看一下
- Activation Functions
- ReLu(good)
- ELU
- leaky ReLu
- no saturated on +region
- converges much faster 差不多6倍的速度,因为梯度不会被杀死
- easy computation
- but half of the data will die
- 符合生物神经网络的概念
- tanh
- saturated -> kill gradient
- sigmoid
- 不要用这个,because it’s not zero centered
- 同时还有饱和、exp难以计算的问题
- gradient on w will be all negative or positive
- maxout
- Data Preprocessing
- Mean/Normalization
- 如果不这么做的话,w轻轻一动就会无法分类
- Batch Normalization
- 每个layer添加一层normalization
- 最后再用y = gamma * xi + beta还原,提高其expressive的能力
- Weight Initialization