パターン認識では、入力データに対する変換がかかっても、結果が不変であることがしばしば求められる。
そのためには大きく4つのアプローチがある。
~E=E+λΩ
入力が変化すると一般に出力も変化する。入力データへの微小な変化 ξ を作用させたときの出力ユニット k の変化度合い(微分)は、D を入力データの次元として
∂yk∂ξ∣∣∣ξ=0(5.126)
=∑Di=1∂yk∂xi∂xi∂ξ∣∣ξ=0
=∑Di=1Jkiτi
この式 (5.126) は入力の変化に対する出力の変化具合なので、この値を正則化関数 Ω に用いる。
~E=E+λΩ(5.127)
~E=E+λΩ(5.127)
以下の二つのアプローチには、密接な関係がある
具体的には、誤差関数が一致する。
まず、 data augmentation を行う際、データ集合が無限となる極限で二乗和誤差関数は
E=12∫∫{y(x)−t}2p(t|x)p(x)dxdt
~E=12∫∫∫{y(s(x,ξ))−t}2p(t|x)p(x)p(ξ)dxdtdξ
(5.130)
ξ の冪乗にテイラー展開すると、
s(x,ξ)=s(x,0)
+ξ∂∂ξs(x,ξ)∣∣ξ=0
+ξ22∂2∂ξ2s(x,ξ)∣∣∣ξ=0
+O(ξ3)
=x+ξτ+12ξ2τ′+O(ξ3)
この結果を用いて p(ξ) は平均0の小さなパラメータと考えて、 O(ξ3),E[ξ] を0として 5.130 の誤差関数を整理すると
~E=E+E[ξ2]12∫{f×g+(τT∇y(x))2}p(x)dx
ただし、
f={y(x)−E[t|x]}
g={τ′T∇y(x)+τT∇∇y(x)τ}
1.5.5節で、二乗和誤差を最小化する関数は、目標値 t の条件付き期待値 E[t|x] となるとわかった。先ほどの右辺第2項は O(ξ2) なので、全体の誤差を最小化するネットワーク関数は
y(x)=E[t|x]+O(ξ2)(5.133)
よってこのとき y(x)−E[t|x]=f=O(ξ2) となり、先ほどの f がかかった項は O(ξ4) として無視できて、
~E=E+E[ξ2]12∫(τT∇y(x))2p(x)dx
E[ξ2] を λ とすると、
~E=E+λΩ(5.131)
Ω=12∫(τT∇y(x))2p(x)dx(5.134)
x→x+ξ のときを考えると、