p(t|α,β)
=∫p(t|w,β)p(w|α)dw
=p(t|α,β)=(β2π)N/2(α2π)M/2∫exp{−E(w)}dw
ただし、
E(w)
=βED(w)+αEww
=β2∥t−Φw∥2+α2wTw
これを w で平方完成すると
E(w)=E(mN)+12(w−mN)TA(w−mN)
ただし、
A=αI+βΦTΦ で ∇∇E(w) に対応し、
E(mN)=β2∥t−ΦmN∥2+α2mNTmN,
mN=βA−1ΦTt と定義した。mN は事後分布の平均で以前出てきた同じ記号と一致する(3.50)。
上記より、目的の関数の指数部分の積分は以下のように解ける。
∫exp{−E(w)}dw
=exp{−E(w)}∫exp−12(w−mN)TA(w−mN)dw
=exp{−E(w)}(2π)M/2|A|−1/2
求めたかった周辺尤度の対数を整理すると
lnp(t|α,β)
=M2lnα+N2lnβ−E(mN)−12ln|A|−N2ln(2π)
前節で得られた結果を超パラメータ α,β について最大化していく。
まずは α について。
A=αI+βΦTΦ の第2項について固有ベクトル方程式を考えると、
(βΦTΦ)ui=λiui
となる。
行列 A 全体で考えると、個々の固有値は α+λi となり、行列式は固有値の積(付録C.47)で計算できるので、
ddαln|A|=ddαlnΠi(α+λi)=ddα∑iln(α+λi)=∑i1α+λi
これを用いて先ほどの対数周辺尤度の α に関する微分を0とすると
M2α−12mTNmN−12∑i1α+λi=0
γ=∑iλiα+λi として整理すると
α=γmTNmN
ここで、 γ は有効パラメータ数である(次節)。
α=γmTNmN の右辺は α に依存する(陰関数)
α と同じように、陰関数の形で β を求めて、繰り返し法を行う。
行列 βΦTΦ の固有値を λi としたので、 λi は β に比例することに注意すると、
dλi/dβ=λi/β となり、
ddβln|A|=ddβ∑iln(λi+α)=1β∑iλiλi+α=γβ
α と同じように対数尤度の β に関する微分を0として整理すれば
1β=1N−γN∑n=1{tn−mTNϕ(xn)}2
これは β に関する陰関数となっている。
λi≫α となるとき、比 λi/(λi+α) は1に近い値を取り、パラメータ ωi は最尤推定値に近づく。このようなパラメータを well-determined parameter という。
逆に λi≪α となるとき、比 λi/(λi+α) は0に近い値を取り、パラメータ ωi は自然と事前分布に近くなる。
σ2ML=1NN∑n=1(xn−μML)2(1.56) σ2MAP=1N−1N∑n=1(xn−μML)2(10.1.3) 1β=1N−γN∑n=1{tn−mTNϕ(xn)}2(3.95)
以下の分散の最尤推定解はノイズも含めた平均の推定で減った自由度を考慮していない。
σ2ML=1NN∑n=1(xn−μML)2(1.56)
10章でベイズ的に自然に導かれる以下の分散の不偏推定量は自由度の減少を考慮している。
σ2MAP=1N−1N∑n=1(xn−μML)2(10.1.3)
前節で求めた β についての陰関数は、最尤推定がバイアスに影響を受けるのに対して、有効なパラメータが γ 個推定されたことによる自由度の減少を考慮できている。
1β=1N−γN∑n=1{tn−mTNϕ(xn)}2(3.95)
データ点がモデルパラメータより十分大きい(N≫M)とき、すべてのパラメータはwell-determined.
γ=M となり、 α=M2Ew(mN)
γ=2αEw(mN) となるので両辺の交点が最適となる。
γ と 2αEw(mN)
lnp(t|α,β) と テスト集合での誤差