[Deep Learning] 如何解決梯度消失 ( Gradient Vanishing) ?
Why :
How :
- 激勵函數使用 sigmoid function, 因Chain Rule法則, 會使得激勵函數之導數無限相乘會越來越小, 無法更新到接近input layer的weight, 稱為梯度消失。
How :
- Activation function改用Relu
- 改用ResNet和Batch normalization
- 網路不要太深
留言
張貼留言