大块一致的梯度,容易优化 Positives: Gives large and consistent gradients (does not saturate) when active Efficient to optimize, converges much faster than sigmoid or tanh Negatives: Non zero centered output Units “die” i.e. when inactive they will never update (落到小于0的位置梯度死掉,参数不更新)
改进Relu
ELU处处可导,但是计算量大,所以用的并不多
Maxout Units 多个线性函数去逼近任意激活函数
参数增加比较多
Sigmoid
容易饱和,在区间大于5或者小于负5梯度为0,参数不更新,网络越深越不好用! Tanh
扩展了区间,问题与sigmoid类似 一般都用Relu
Architecture Design
主要考虑网络的深度和宽度 MLP:多层感知机—可以近似任意二值函数,分类器和估值器
MLP可以逼近任意分类边界
MLP处理回归问题:
A one-layer MLP can model an arbitrary function of a single input