ディープラーニング・機械学習・パターン認識を理解する上で押さえておきたい数式たち

ディープラーニング(深層学習)、機械学習、パターン認識などを学習していると、突然現れ始めるベクトル(もしくは行列)と微分・積分が合体した下のような数式を解説していく。

$$ \frac{\partial E}{\partial \boldsymbol{w}} \tag{1} $$

$$ P_e = \int P_e(\boldsymbol{x})p(\boldsymbol{x})d \boldsymbol{x} \tag{2} $$

(1)はスカラー関数をベクトルで微分する式。
(2)は積分変数がベクトルの積分の式。

スカラー関数をベクトルで微分する
スカラー関数を行列で微分する
積分変数がベクトルの積分

スカラー関数をベクトルで微分する

Eが損失関数などのスカラー関数、wが下のような重みベクトルだとする。

$$
\boldsymbol{w} =
\left(
\begin{array}{c}
w_1 \\
w_2 \\
\vdots \\
w_n \\
\end{array}
\right)
$$

このときスカラ(損失関数)を重みベクトルwで微分したものは、下のようなベクトルと同じ形状の、各要素が偏微分であるベクトルとなる。

$$
\frac{\partial E}{\partial \boldsymbol{w}} =
\left(
\begin{array}{c}
\frac{\partial E}{\partial w_1} \\
\frac{\partial E}{\partial w_2} \\
\vdots \\
\frac{\partial E}{\partial w_n} \\
\end{array}
\right)
$$

これは定義なので、証明はない。（なぜこうなるかなどは考えない）

また、ベクトルが横ベクトルの場合は、結果のベクトルも同様に横ベクトルになる。

$$ \boldsymbol{x} = (x_1, x_2, \ldots, x_n) $$

$$
\frac{\partial E}{\partial \boldsymbol{x}} = (\frac{\partial E}{\partial x_1}, \frac{\partial E}{\partial x_2}, \ldots, \frac{\partial E}{\partial x_n})
$$

スカラー関数を行列で微分する

ベクトルの場合と考え方は同じ。下の例では、2行2列の行列を考えたが、何行何列でも同じ。

$$
A =
\begin{pmatrix}
x_{11} & x_{12} \\
x_{21} & x_{22}
\end{pmatrix}
$$

$$
\frac{\partial E}{\partial A} =
\begin{pmatrix}
\frac{\partial E}{\partial x_{11}} & \frac{\partial E}{\partial x_{12}} \\
\frac{\partial E}{\partial x_{21}} & \frac{\partial E}{\partial x_{22}}
\end{pmatrix}
$$

積分変数がベクトルの積分

冒頭の式(2)を再掲する。

$$ P_e = \int P_e(\boldsymbol{x})p(\boldsymbol{x})d \boldsymbol{x} \tag{2} $$

この式は「わかりやすいパターン認識第2版」の第5章に出てくる数式で、積分変数がベクトルなのだが、本の前後にも付録に説明が書いてなくて困った。

いろいろ調べた結果、これは重積分の簡略化した書き方らしい。
(間違えていたらコメントで教えてください)

つまり$\boldsymbol{x}$が$ \boldsymbol{x} = (x_1, x_2)^{\mathrm{T}} $だとすると、(2)の式を省略せずに書くと

$$ P_e = \iint P_e(x_1, x_2)p(x_1, x_2)d x_1 d x_2 \tag{3} $$

-3

スカラー関数をベクトルで微分する

スカラー関数を行列で微分する

積分変数がベクトルの積分

コメント

タグ