ディープラーニング(深層学習)、機械学習、パターン認識などを学習していると、突然現れ始めるベクトル(もしくは行列)と微分・積分が合体した下のような数式を解説していく。
$$ \frac{\partial E}{\partial \boldsymbol{w}} \tag{1} $$
$$ P_e = \int P_e(\boldsymbol{x})p(\boldsymbol{x})d \boldsymbol{x} \tag{2} $$
(1)はスカラー関数をベクトルで微分する式。
(2)は積分変数がベクトルの積分の式。
スカラー関数をベクトルで微分する
Eが損失関数などのスカラー関数、wが下のような重みベクトルだとする。
$$
\boldsymbol{w} =
\left(
\begin{array}{c}
w_1 \\
w_2 \\
\vdots \\
w_n \\
\end{array}
\right)
$$
このときスカラ(損失関数)を重みベクトルwで微分したものは、下のようなベクトルと同じ形状の、各要素が偏微分であるベクトルとなる。
$$
\frac{\partial E}{\partial \boldsymbol{w}} =
\left(
\begin{array}{c}
\frac{\partial E}{\partial w_1} \\
\frac{\partial E}{\partial w_2} \\
\vdots \\
\frac{\partial E}{\partial w_n} \\
\end{array}
\right)
$$
これは定義なので、証明はない。(なぜこうなるかなどは考えない)
また、ベクトルが横ベクトルの場合は、結果のベクトルも同様に横ベクトルになる。
$$ \boldsymbol{x} = (x_1, x_2, \ldots, x_n) $$
$$
\frac{\partial E}{\partial \boldsymbol{x}} = (\frac{\partial E}{\partial x_1}, \frac{\partial E}{\partial x_2}, \ldots, \frac{\partial E}{\partial x_n})
$$
スカラー関数を行列で微分する
ベクトルの場合と考え方は同じ。下の例では、2行2列の行列を考えたが、何行何列でも同じ。
$$
A =
\begin{pmatrix}
x_{11} & x_{12} \\
x_{21} & x_{22}
\end{pmatrix}
$$
$$
\frac{\partial E}{\partial A} =
\begin{pmatrix}
\frac{\partial E}{\partial x_{11}} & \frac{\partial E}{\partial x_{12}} \\
\frac{\partial E}{\partial x_{21}} & \frac{\partial E}{\partial x_{22}}
\end{pmatrix}
$$
積分変数がベクトルの積分
冒頭の式(2)を再掲する。
$$ P_e = \int P_e(\boldsymbol{x})p(\boldsymbol{x})d \boldsymbol{x} \tag{2} $$
この式は「わかりやすいパターン認識 第2版」の第5章に出てくる数式で、積分変数がベクトルなのだが、本の前後にも付録に説明が書いてなくて困った。
いろいろ調べた結果、これは重積分の簡略化した書き方らしい。
(間違えていたらコメントで教えてください)
つまり\(\boldsymbol{x}\)が\( \boldsymbol{x} = (x_1, x_2)^{\mathrm{T}} \)だとすると、(2)の式を省略せずに書くと
$$ P_e = \iint P_e(x_1, x_2)p(x_1, x_2)d x_1 d x_2 \tag{3} $$
-3
コメント