今天的內容會帶大家了解
1. 梯度下降的定義與程式樣貌
2. 初步理解梯度下降的概念
3. 能從程式中微調相關的參數
Gradient descent 是一個一階最佳化算法,通常也稱為最速下降法
要使用梯度下降法找到一個函數的局部極小值
必須向函數上當前點對應梯度(或者是近似梯度)的反方向規定步長距離點進行疊代搜索
梯度下降法的缺點包括:
靠近極小值時速度減慢,直線搜索可能會產生一些問題
可能會「之字型」地下降
Avoid Local Minima:
在訓練神經網絡的時候,通常在訓練剛開始的時候使用較大的 learning rate
隨著訓練的進行,我們會慢慢的減小 learning rate
有了大概的理解之後,我們開始今天的學習吧!!!