[Deep Learning] 如何解決梯度消失 ( Gradient Vanishing) ?

Why :

  • 激勵函數使用 sigmoid function, 因Chain Rule法則, 會使得激勵函數之導數無限相乘會越來越小, 無法更新到接近input layer的weight, 稱為梯度消失。

How :
  1. Activation function改用Relu
  2. 改用ResNet和Batch normalization
  3. 網路不要太深

留言

這個網誌中的熱門文章

[TensorFlow, C++, Visual Studio, Windows] TensorFlow C++ 如何編譯與解決BUG (How to build Tensorflow C++ API with Visual Studio and solve BUG)

[Ubuntu, Docker, Docker Swarm] Docker Swarm 建置 Jupyter Notebook 流程

[Docker Swarm] Docker Swarm 指令