PRML勉強会

  1. 2.3.7 スチューデントのt分布
  2. 2.3.8 周期変数

2.3.7 スチューデントのt分布

2.3.7 スチューデントのt分布

  • ガウス分布に対して、ガンマ分布を 精度 の事前分布とし、精度を積分消去すると、スチューデントのt分布が得られる。

スチューデントのt分布

ガンマ分布のパラメータ を、, と変換すると、

という形で得られる。

t分布の特徴

  • 平均が同じで精度の異なる正規分布を無限個足し合わせたもの
  • 元のガウス分布の分散にはよらない
  • ガンマ分布の変数からなる、自由度と精度による

コーシー分布

figure2.15
  • 自由度が1のときの分布をコーシー分布という
    • 極限値がとれないため期待値はない
    • 大数の法則・中心極限定理が成立しない

t分布の特徴

t分布の頑健性

がt分布、が正規分布(1枚目は重なっている)

figure2.16a
figure2.16b
  • 最尤推定解を比較すると(t分布については12章EMアルゴリズムで得る)
  • 外れ値に影響されづらいことが分かる

t分布の使われ方

  • 頑健性
    • ラベル付けのミスのような異常値や、サンプルサイズが小さく外れ値があり、分散が定められない場合
    • 実際にすそが長い分布の場合に有効
  • t検定
    • 母集団が正規分布に従うという仮定の下で、検定値がt分布に従うことを利用して有意差の判定などを行う

t分布の使われ方

  • 回帰問題にも有効
    • 最小二乗法は誤差が正規分布を取るなどの仮定の下での最尤推定に相当し、頑健でない
    • t分布のような、すその重い分布を使えば、外れ値に強くできる
      • スチューデント化残差

多変量スチューデントt分布

多変量ガウス分布 に対応したものを考えて、同じく積分すると

ただし、の次元数、はマハラノビス距離で、

多変量スチューデントt分布の性質

1変数の場合と対応して、以下の性質を持つ

  • のとき
  • のとき

2.3.8 周期変数

周期を持った量をモデル化したい

  • 例: 日付や風向

周期を持った量をモデル化したい

circle
  • , という例を考えてみる。
  • 丸をデータ点として、原点の取り方を考える

周期を持った量をモデル化したい

circle
  • 原点を上の線()にとると、平均, 標準偏差
  • 原点を下の線()にとると、平均, 標準偏差
  • 恣意的な原点の決め方に、強く依存
    • 特別な方法が必要

ベクトルの利用

Figure2.17
  • データ点を単位円上のベクトルとみなす

ベクトルの利用

  • 角度ではなく、ベクトルの平均を取る
    • 原点に依存しない

フォンミーゼス(循環正規)分布

  • 満たすべき条件

フォンミーゼス(循環正規)分布

  • 先述の条件を満たすガウス分布を考えてみる
    • 2変数にする,
    • 平均は
    • 共分散行列

  • ただし、正規化されていない。

フォンミーゼス(循環正規)分布

Figure2.18

単位円で条件付けを行う()

フォンミーゼス(循環正規)分布

指数部分(の中身)を以下のように変形できる

  • 極座標に写して表現
  • 展開
  • で条件付け
  • 三角関数を用いる
  • に依存しない部分をでくくる

フォンミーゼス(循環正規)分布

  • ここで、正規分布での逆分散・精度に類似する概念として、集中度パラメータを導入して整理すると

ただし、

フォンミーゼス(循環正規)分布

  • は分布の平均
  • は正規化係数で、0次の第1種変形ベッセル関数
  • が大きくなると、近似的にガウス分布となる
  • 単峰性である
    • 多峰性を得るには、混合分布をつくる

フォンミーゼス(循環正規)分布

figure2.19a
figure2.19b
  • 左は直交座標、右は極座標

循環正規分布の最尤推定

上記の対数尤度関数に対して、についての導関数を0とおくと、周期変数の導入時に得た観測値の平均 に一致する。

循環正規分布の最尤推定

  • (Abramowitz and Stegun, 1965)
  • を最尤推定解で置き換え
  • としてについての導関数を0とし、

  • 加法定理による変形で評価を容易にできる他、逆関数は数値的に求められる。

周期変数の他の扱い方

  • 極座標を一定幅に分割してヒストグラムで扱う
    • 単純で柔軟なものの
    • 2.5節で扱う問題もある
      • 非連続性
      • 次元の呪い(1.4節)
  • ガウス分布の周辺化
    • 複雑
  • 実数軸上の分布を周期変数に写像(巻き込む)
    • 複雑

まとめ

  • スチューデントのt分布の導入
    • 正規分布を重ね合わせた分布
    • 頑健性をもつ
  • 周期変数の導入
    • 原点によらないモデル化が可能
    • PRMLでもあまり使わないらしい…