章立て参考
- ゼロから作るDeep Learning
活性化関数(Activation Function)
シグモイド関数
ステップ関数
ReLU関数(Rectified Linear Unit Function)
出力層の設計
恒等関数
ソフトマックス関数
損失関数(Loss Function)
2乗和誤差(mean squared error)
交差エントロピー誤差(cross entropy error)
誤差逆伝播法
Affine(Linear)層
ゼロつく①に補足して説明すると、バイアスBを足すのは、各要素に足しているだけなので加算ノード同様微分をそのまま流す。最後、入力X、重みWについての微分は、出力の形状がX、Wそれぞれに等しくなることから逆算すればいい。
学習テクニック
パラメータ更新
SGD
Nesterov SGD
Momentum
AdaGrad
パラメータ1つ1つに対して、個別の学習係数を用意してスケジューリングしていくような技法。
詳しくはゼロつく①が分かりやすい。
AdaDelta
RMSProp
Adam
MomentumとAdaGradを融合したような手法。