ディープラーニングで初期入力から最終出力を得る計算過程

ディープラーニングで初期入力から最終出力を得る計算過程について解説します。

前提として、ベクトルの和を求める計算と行列の積を求める計算を理解しておいてください。

入力層と隠れ層と出力層の関係

ディープラーニングの解説では、入力層と隠れ層と出力層の図が必ずでてきます。ただし、この図は、概念的な図であって、実際のプログラムにおけるデータ構造を適切に表現しているわけではありません。

プログラムを書く上で、知っておかなければならない情報は、次の情報です。

「入力数」と「隠れ層の出力数」です。

* * *     (入力。3つ)

隠れ層0

* * * * * (隠れ層0の出力。5つ。)

隠れ層1

* * *     (隠れ層1の出力。3つ。)

隠れ層2

* *       (隠れ層2の出力。2つ。これが最終出力。)

個々のデータはすべて32bit浮動小数点で表現されます。C言語でいうところのfloat型です。

入力数

28ピクセル×28ピクセルのモノクロ画像の場合は、float型の784個の入力数です。色の濃さは0～255で表現できるので、float型の値として表現できます。float型は浮動小数点型ですが、小数点を使わないことによって、整数も表現できます。

隠れ層の出力数

隠れ層の出力数は、自分で決めます。3層あったとすると0層目は100、1層目は150、2層目は120のように任意で決めます。

ニューラルネットワークでいうニューロンの個数は、この数に対応しています。

出力数

出力数は、たとえばパターン認識の場合で、A、B、Cを判定するとすると、3になります。

隠れ層の最後の出力数は、最終的な出力数になります。上記の例では、最後の120が、最終的な出力数になります。

ですので、最後の隠れ層の出力数を決めると、それが出力数になります。

隠れ層の各層の情報

次に隠れ層の各層の情報について書きます。隠れ層の各層は、重みとバイアスと呼ばれるパラメーターを持っています。これは、m個の入力をn個の出力に変換するためのものです。

重みは行列として表現されます。バイアスは、ベクトルとして表現されます。

重みとバイアスを使って入力から出力を求める計算

2つの入力を、重みとバイアスを使って、3つの出力に変換するPerlのコードです。これは、行列を使うと簡潔に求められます。add_vecは行列の和、mul_mutは、行列の積を求める関数だと考えてください。

重みは、3行2列の列優先の行列だと考えてください。

# 実際の処理の詳細
$outputs->[0] = $weights->[0] * $inputs->[0] + $weights->[3] * $inputs->[1] + $biases->[0];
$outputs->[1] = $weights->[1] * $inputs->[0] + $weights->[4] * $inputs->[1] + $biases->[1];
$outputs->[2] = $weights->[2] * $inputs->[0] + $weights->[5] * $inputs->[1] + $biases->[2];

# 行列での表現
$outputs = add_vec(mul_mut($weights, $inputs), $biases);

数学の式を見ると、頭が混乱してきますが、単なる掛け算・足し算・関数呼び出しと考えると簡単ですね。

各層の重みとバイアスのパラメーターの形の決め方

各層の重みとバイアスのパラメータが、何から決まるかということを書きます。

それは、簡単で、入力数、隠れ層の各層のニューロン数、出力数です。これが決まれば自動的に決まります。

上の例では、入力が2で、出力が3です。すると重みは3行2列の行列、バイアスは、3の長さのベクトルになります。

入力が784個、出力が100個だとすると、重みは100行784列の行列、バイアスは、100の長さのベクトルになります。

重みとバイアスは、学習が終わった後に更新される、動的なものです。重みとバイアスの良い初期値については以下の記事を参考にしてください。

各層のパラメーターの初期値の設定方法

活性化関数が適用される位置

活性化関数は、各層の出力に対して適用されます。活性化関数が適用された出力が、次の層の入力になります。

# 活性化関数の適用
my $new_inputs = [];
for (my $i = 0; $i < @$outputs; $i++) {
  $new_inputs->[$i] = activate_func($outputs->[$i]);
}