[Deep Learning] 如何解決梯度消失 ( Gradient Vanishing) ?

Why :

  • 激勵函數使用 sigmoid function, 因Chain Rule法則, 會使得激勵函數之導數無限相乘會越來越小, 無法更新到接近input layer的weight, 稱為梯度消失。

How :
  1. Activation function改用Relu
  2. 改用ResNet和Batch normalization
  3. 網路不要太深

留言

這個網誌中的熱門文章

[Docker Swarm] Docker Swarm 指令

[Ubuntu, Docker, Docker Swarm] Docker Swarm 建置 Jupyter Notebook 流程

[Daily] 近期辭職工作以及找新工作的心得...