2.3.7 スチューデントのt分布
- ガウス分布に対して、ガンマ分布を 精度τ=1σ2 の事前分布とし、精度を積分消去すると、スチューデントのt分布が得られる。
p(x|μ,a,b)
=∫∞0N(x|μ,τ−1)Gam(τ|a,b)dτ
=baΓ(a)(12π)1/2[b+(x−μ)22]−a−1/2Γ(a+1/2)
スチューデントのt分布
ガンマ分布のパラメータ a,b を、v=2a, λ=a/bと変換すると、
St(x|μ,λ,v)=Γ(v/2+1/2)Γ(v/2)(λπv)1/2[1+λ(x−μ)2v]−v/2−1/2
という形で得られる。
t分布の特徴
- 平均が同じで精度の異なる正規分布を無限個足し合わせたもの
- 元のガウス分布の分散にはよらない
- ガンマ分布の変数aとbからなる、自由度vと精度λによる
コーシー分布
- 自由度vが1のときの分布をコーシー分布という
- 極限値がとれないため期待値はない
- 大数の法則・中心極限定理が成立しない
t分布の頑健性
赤がt分布、緑が正規分布(1枚目は重なっている)
- 最尤推定解を比較すると(t分布については12章EMアルゴリズムで得る)
- 外れ値に影響されづらいことが分かる
t分布の使われ方
- 頑健性
- ラベル付けのミスのような異常値や、サンプルサイズが小さく外れ値があり、分散が定められない場合
- 実際にすそが長い分布の場合に有効
- t検定
- 母集団が正規分布に従うという仮定の下で、検定値がt分布に従うことを利用して有意差の判定などを行う
t分布の使われ方
- 回帰問題にも有効
- 最小二乗法は誤差が正規分布を取るなどの仮定の下での最尤推定に相当し、頑健でない
- t分布のような、すその重い分布を使えば、外れ値に強くできる
多変量スチューデントt分布
多変量ガウス分布 N(x|μ,Λ) に対応したものを考えて、同じく積分すると
St(x|μ,Λ,v)=Γ(D/2+v/2)Γ(v/2)|Λ|1/2(πv)D/2[1+Δ2v]−D/2−v/2
ただし、Dはxの次元数、Δはマハラノビス距離で、
Δ2=(x−μ)⊤Λ(x−μ)
多変量スチューデントt分布の性質
1変数の場合と対応して、以下の性質を持つ
- v>1 のとき E[x]=μ
- v>2 のとき cov[x]=vv−2Λ−1
- mode[x]=μ
周期を持った量をモデル化したい
- θ1=1∘, θ2=359∘ という例を考えてみる。
- 丸をデータ点として、原点の取り方を考える
周期を持った量をモデル化したい
- 原点を上の線(0∘)にとると、平均180∘, 標準偏差179∘
- 原点を下の線(180∘)にとると、平均0∘, 標準偏差1∘
- 恣意的な原点の決め方に、強く依存
ベクトルの利用
ベクトルの利用
¯¯¯x=1NN∑n=1xn
¯¯¯θ=tan−1∑nsinθn∑ncosθn
フォンミーゼス(循環正規)分布
- 満たすべき条件
- p(θ)≥0
- ∫2π0p(θ)dθ=1
- p(θ+2π)=p(θ)
フォンミーゼス(循環正規)分布
- 先述の条件を満たすガウス分布を考えてみる
- 2変数にする, x=(x1,x2)
- 平均は μ=(μ1,μ2)
- 共分散行列 Σ=σ2I
p(x1,x2)=12πσ2exp−(x1−μ1)2+(x2−μ2)22σ2
フォンミーゼス(循環正規)分布
単位円で条件付けを行う(r=1)
フォンミーゼス(循環正規)分布
指数部分(expの中身)を以下のように変形できる
- 極座標に写して表現
- 展開
- r=1で条件付け
- 三角関数を用いる
- θに依存しない部分をconstでくくる
−12σ2(cosθ−r0cosθ0)2+(sinθ−r0sinθ0)2
=r0σ2cos(θ−θ0)+const
フォンミーゼス(循環正規)分布
- ここで、正規分布での逆分散・精度に類似する概念として、集中度パラメータm=r0/σ2を導入して整理すると
p(θ|θ0,m)=12πI0(m)expcos(θ−θ0)m
ただし、I0(m)=12π∫2π0expcosθmdθ
フォンミーゼス(循環正規)分布
p(θ|θ0,m)=12πI0(m)expcos(θ−θ0)m
- θ0 は分布の平均
- I0(m) は正規化係数で、0次の第1種変形ベッセル関数
- mが大きくなると、近似的にガウス分布となる
- 単峰性である
フォンミーゼス(循環正規)分布
p(θ|θ0,m)=12πI0(m)expcos(θ−θ0)m
循環正規分布の最尤推定
lnp(D|θ0,m)=
−Nln(2π)−NlnI0(m)+mN∑n=1cos(θn−θ0)
上記の対数尤度関数に対して、θ0についての導関数を0とおくと、周期変数の導入時に得た観測値の平均 ¯¯¯θに一致する。
θML0=tan−1∑nsinθn∑ncosθn
循環正規分布の最尤推定
- I′0(m)=I1(m) (Abramowitz and Stegun, 1965)
- θ0を最尤推定解θML0で置き換え
- A(m)=I1(m)I0(m)としてmについての導関数を0とし、
A(mML)=1NN∑n=1cos(θn−θML0)
- 加法定理による変形で評価を容易にできる他、逆関数は数値的に求められる。
周期変数の他の扱い方
- 極座標を一定幅に分割してヒストグラムで扱う
- ガウス分布の周辺化
- 実数軸上の分布を周期変数に写像(巻き込む)