[Deep Learning] 如何解決梯度消失 ( Gradient Vanishing) ?

Why :

  • 激勵函數使用 sigmoid function, 因Chain Rule法則, 會使得激勵函數之導數無限相乘會越來越小, 無法更新到接近input layer的weight, 稱為梯度消失。

How :
  1. Activation function改用Relu
  2. 改用ResNet和Batch normalization
  3. 網路不要太深

留言

這個網誌中的熱門文章

[CentOS, OpenCV] CentOS 7 安裝 OpenCV 3.4.5 (CentOS install OpenCV )

[CGAL, BOOST, C++, Visual Studio] Mutex is not supported when compiling with /clr or clr:pure