PRML勉強会

5.5.3 不変性
5.5.4 接線伝播法
5.5.5 変換されたデータを用いた訓練

5.5.3 不変性

パターン認識では、入力データに対する変換がかかっても、結果が不変であることがしばしば求められる。

平行移動不変性
尺度不変性（サイズに対する不変性）
時間的な伸縮に対する不変性

不変性のための4つのアプローチ

そのためには大きく4つのアプローチがある。

data augmentation: 学習データ集合を変換してかさ増しする(5.5.5)
接線伝播法(5.5.4)
変換に対して不変な特徴量を抽出する
たたみ込みニューラルネットワーク(5.5.6)

アプローチ１. data augmentation: 学習データ集合を変換してかさ増しする(5.5.5)

アプローチ１. data augmentation: 学習データ集合を変換してかさ増しする(5.5.5)

メリット
- 実装が容易で一般的かつ複雑な不変性にも応用可能
- オンライン学習では、毎回与えるデータにランダムな変換を施す
- バッチ処理では、独立な変換をデータ集合に施す
デメリット
- 学習データ数も増えるので、計算量が増える。

アプローチ2. 接線伝播法(5.5.4)

正則化項を誤差関数に加えることで不変性の崩れにペナルティを課す
5.5.5節で、アプローチ1との密接な関係を議論

アプローチ3. 変換に対して不変な特徴量を抽出する

これができたらその後にどんな回帰や分類を行っても不変性は維持されるが、、特に方法論などは書かれていない（職人芸）
NNはこれを勝手にやってくれると考えることもできる（隠れ層が特徴量を抽出している）
- transfer learning などは、その特徴量としての不変性を利用しているとも考えられる

アプローチ4. たたm込みニューラルネットワーク(5.5.6)

学習器内部に不変性を構築する
- NNであれば構造に
- 局所的受容野の重みを共有する
- RVMであればカーネル関数の定義に

5.5.4 接線伝播法

$~ E = E + λ Ω$

正則化項を用いてモデルに入力に対する不変性を持たせる
- 入力に対して出力が変化する度合い $Ω$ を導き出せば良い

5.5.4 変換が連続な場合を考える

入力データへの変化が連続（例えば平行移動や回転、鏡面は含まない）な場合、入力空間上で変換前後のデータ座標も連続的に変化する。
2次元の入力データ $x_{n}$ をに対し、連続変数 $ξ$ だけ少しずつ変換させたときの $x_{n}$ の座標点の軌跡を表すと、局所的な変換の影響は接ベクトル $τ_{n}$ として扱える。

変換による軌跡としての多様体 $M$

$τ_{n}$ : 局所的な変換の影響を表す接ベクトル
$ξ$ : 変換のパラメータ
$x_{n}$ : 2次元の入力データ

5.5.4 接線伝播法

aは元画像
bは無限小の時計回りの回転に対する接ベクトル $τ$ （正, 負)
cは $ϵ = 15^{\circ}$ で $x + ϵ τ$
dは回転させた真の画像

5.5.4 接線伝播法

入力が変化すると一般に出力も変化する。入力データへの微小な変化 $ξ$ を作用させたときの出力ユニット $k$ の変化度合い(微分)は、 $D$ を入力データの次元として

$\begin{matrix} {\frac{\partial y_{k}}{\partial ξ} ∣ ∣ ∣}_{ξ = 0} \\ (5.126) \end{matrix}$

$= {\sum_{i = 1}^{D} \frac{\partial y_{k}}{\partial x_{i}} \frac{\partial x_{i}}{\partial ξ} ∣ ∣}_{ξ = 0}$

$= \sum_{i = 1}^{D} J_{k i} τ_{i}$

5.5.4 接線伝播法

$\partial y_{k} / \partial x_{i}$ は出力の入力に関する微分だから、ヤコビ行列 $J$ 。
- $J_{k i}$ は $J$ の $(k, i)$ 成分
$\partial x_{i} / \partial ξ$ は接ベクトル $τ_{n}$ で、実際には有限幅の差分による近似で求める。

5.5.4 接線伝播法

この式 (5.126) は入力の変化に対する出力の変化具合なので、この値を正則化関数 $Ω$ に用いる。

$\begin{matrix} ~ E = E + λ Ω \\ (5.127) \end{matrix}$

5.5.4 接線伝播法

$\begin{matrix} ~ E = E + λ Ω \\ (5.127) \end{matrix}$

$Ω$ は、データ点と出力ユニットについて5.126の総和をとったもの。
- それぞれのベクトル近傍において、ネットワーク関数がそ��変換のもとで不変であれば0となるような関数。
$λ$ は正則化係数で、訓練データに対するフィッティングと不変性の学習のバランスを決定する。
変換のパラメータを多次元にしても、局所的な不変性は維持できる（Simard et al., 1992）

5.5.5 変換されたデータを用いた訓練

data augmentation

以下の二つのアプローチには、密接な関係がある

data augmentation: 学習データ集合を変換してかさ増しする(5.5.5)
接線伝播法(5.5.4)

具体的には、誤差関数が一致する。

誤差関数

まず、 data augmentation を行う際、データ集合が無限となる極限で二乗和誤差関数は

$E = \frac{1}{2} \int \int {y (x) - t}^{2} p (t | x) p (x) d x d t$

出力は1つと考える

data augmentation

変換のパラメータも $ξ$ 1つ
それぞれのデータ点が $p (ξ)$ で選ばれるパラメータ $ξ$ によって無限にコピーされており、
$s$ を $s (x, 0) = x$ となるような変換関数と考えると、誤差関数は

$~ E = \frac{1}{2} \int \int \int {y (s (x, ξ)) - t}^{2} p (t | x) p (x) p (ξ) d x d t d ξ$

$\begin{matrix} (5.130) \end{matrix}$

テイラー展開による式変形

$ξ$ の冪乗にテイラー展開すると、

$s (x, ξ) = s (x, 0)$

$+ {ξ \frac{\partial}{\partial ξ} s (x, ξ) ∣ ∣}_{ξ = 0}$

$+ {\frac{ξ^{2}}{2} \frac{\partial^{2}}{\partial ξ^{2}} s (x, ξ) ∣ ∣ ∣}_{ξ = 0}$

$+ O (ξ^{3})$

$= x + ξ τ + \frac{1}{2} ξ^{2} τ^{'} + O (ξ^{3})$

$τ^{'}$ は $ξ = 0$ における $s (x, ξ)$ の二階微分

誤差関数の整理

この結果を用いて $p (ξ)$ は平均0の小さなパラメータと考えて、 $O (ξ^{3}), E [ξ]$ を0として 5.130 の誤差関数を整理すると

$~ E = E + E [ξ^{2}] \frac{1}{2} \int {f \times g + (τ^{T} \nabla y (x))^{2}} p (x) d x$

ただし、

$f = {y (x) - E [t | x]}$

$g = {τ^{' T} \nabla y (x) + τ^{T} \nabla \nabla y (x) τ}$

誤差関数の整理

1.5.5節で、二乗和誤差を最小化する関数は、目標値 $t$ の条件付き期待値 $E [t | x]$ となるとわかった。先ほどの右辺第2項は $O (ξ^{2})$ なので、全体の誤差を最小化するネットワーク関数は

$\begin{matrix} y (x) = E [t | x] + O (ξ^{2}) \\ (5.133) \end{matrix}$

よってこのとき $y (x) - E [t | x] = f = O (ξ^{2})$ となり、先ほどの $f$ がかかった項は $O (ξ^{4})$ として無視できて、

$~ E = E + E [ξ^{2}] \frac{1}{2} \int (τ^{T} \nabla y (x))^{2} p (x) d x$

接線伝播法との等価性

$E [ξ^{2}]$ を $λ$ とすると、

$\begin{matrix} ~ E = E + λ Ω \\ (5.131) \end{matrix}$

$\begin{matrix} Ω = \frac{1}{2} \int (τ^{T} \nabla y (x))^{2} p (x) d x \\ (5.134) \end{matrix}$

これは接線伝播法の正則化項と等価。
→ データのかさ増しも、接線伝播法も、変換が小さくデータが無限の極限では同じこと

ティホノフ正則化

$x \to x + ξ$ のときを考えると、

$Ω = \frac{1}{2} \int ∥ \nabla y (x) ∥^{2} p (x) d x$
これをティホノフ正則化という
乱数ノイズを入力に付加している
適当な環境では汎化性能を向上させる（Sietsma and Dow, 1991）

PRML勉強会

5.5.3 不変性

5.5.3 不変性

不変性のための4つのアプローチ

アプローチ１. data augmentation: 学習データ集合を変換してかさ増しする(5.5.5)

アプローチ１. data augmentation: 学習データ集合を変換してかさ増しする(5.5.5)

アプローチ2. 接線伝播法(5.5.4)

アプローチ3. 変換に対して不変な特徴量を抽出する

アプローチ4. たたm込みニューラルネットワーク(5.5.6)

5.5.4 接線伝播法

5.5.4 接線伝播法

5.5.4 変換が連続な場合を考える

変換による軌跡としての多様体 M

5.5.4 接線伝播法

5.5.4 接線伝播法

5.5.4 接線伝播法

5.5.4 接線伝播法

5.5.4 接線伝播法

5.5.5 変換されたデータを用いた訓練

data augmentation

誤差関数

data augmentation

テイラー展開による式変形

誤差関数の整理

誤差関数の整理

接線伝播法との等価性

ティホノフ正則化

変換による軌跡としての多様体 $M$