發表文章

目前顯示的是 3月, 2020的文章

[Deep Learning] 如何解決梯度消失 ( Gradient Vanishing) ?

Why : 激勵函數使用 sigmoid function, 因Chain Rule法則, 會使得激勵函數之導數無限相乘會越來越小, 無法更新到接近input layer的weight, 稱為梯度消失。 How : Activation function改用Relu 改用ResNet和Batch normalization 網路不要太深