【知識整理】ディープラーニング

この記事は約2分で読めます。

章立て参考

  • ゼロから作るDeep Learning

活性化関数(Activation Function)

シグモイド関数

ステップ関数

ReLU関数(Rectified Linear Unit Function)

出力層の設計

恒等関数

ソフトマックス関数

損失関数(Loss Function)

2乗和誤差(mean squared error)

交差エントロピー誤差(cross entropy error)

誤差逆伝播法

Affine(Linear)層

ゼロつく①に補足して説明すると、バイアスBを足すのは、各要素に足しているだけなので加算ノード同様微分をそのまま流す。最後、入力X、重みWについての微分は、出力の形状がX、Wそれぞれに等しくなることから逆算すればいい。

学習テクニック

パラメータ更新

SGD

Nesterov SGD

Momentum

AdaGrad

パラメータ1つ1つに対して、個別の学習係数を用意してスケジューリングしていくような技法。
詳しくはゼロつく①が分かりやすい。

AdaDelta

RMSProp

Adam

MomentumとAdaGradを融合したような手法。

学習定数のスケジューリング

Robins and Monro法

Power Scheduling法

Exponential Scheduling法

Piecewise Constant Scheduling法

Performance Scheduling法

1-Cycle Scheduling法

重みの初期値

正規化層

Batch Normalization

スキップ接続

ResNetで提案されたオリジナルのスキップ接続

PreActivation

Single ReLU

正則化

ハイパラチューニング

CNN

【知識整理】CNN

NLPとRNN

【知識整理】NLPとRNN