PRML勉強会

  1. 4.4 ラプラス近似
  2. 4.5 ベイズロジスティック回帰
  3. まとめ
  4. 5 ニューラルネットワーク

4.4 ラプラス近似

これからの流れ

  • 4.5で扱うベイズロジスティック回帰は、3.3, 3.5節のベイズ線形回帰のような評価は難しい
  • 事後分布がガウス分布でないため、 で正確な積分を取れない
  • なんらかの近似が必要
    • 10章 解析的近似
    • 11章 数値的なサンプリング

ラプラス近似

  • 本章ではラプラス近似を用いる
  • 目的
    • 連続変数の集合上に定義される確率密度分布をガウス分布で近似すること
  • ガウス分布で近似できれば、今まで通り で積分(周辺化)して予測すれば良い

やり方の流れ

  • モードを決める
  • 分散をパラメータとしてフィッティングさせる

連続な1変数zの場合

以下の式で定義される分布 を仮定する。

について積分した正規化定数)

まずは の最頻値を見つける。つまり、

を満たす を見つける。

連続な1変数zの場合

は数値最適化アルゴリズムで求められる(Bishop and Nabney, 2008)。

ガウス分布は、対数をとると指数部分の変数の2次関数となるので、 の対数をテイラー展開を使って、2次関数で近似することを考える。

連続な1変数zの場合

を中心とした のテイラー展開は、 より一次の項を除いた形となり、

連続な1変数zの場合

として両辺で指数をとると、

となり、任意の分布 について、ガウス分布と同じ形で書くことができた。

連続な1変数zの場合

正規化係数をあわせて、近似分布は

ただし、ルートの計算があるので、 つまり での2階微分が負の場合しかこの近似式は使えない。

シグモイド関数の近似例

オレンジは で、赤が近似したガウス分布。右のプロットは負の対数。

figure4.14a
figure4.14b

多次元(M次元)の場合

1変数の場合と同様に の最頻値 を求める。

では、勾配 は0となる。この定常点の周りでテイラー展開すると

このとき、 行列 である。

多次元(M次元)の場合

1変数のときと同様、対数をとって正規化係数を求めることで以下の近似分布を得る

  • 1変数と同様に、近似には条件があり、精度行列 が正定値である必要がある。
  • つまり、定常点 が局所最大で、局所最小または鞍点でない場合に、このガウス分布は適切に定義される。

ラプラス近似の利点と欠点

  • 利点
    • 観測データが増えるほど、中心極限定理からガウス分布による近似が良くなることが期待できる
      • データが多い状況で有用

ラプラス近似の利点と欠点

  • 欠点
    • 現実の分布は多峰的であることが多く、モードの選択によって異なるラプラス近似が存在する
      • 真の分布のある一点における局面にのみ基づいてしまう
      • 10章でより全体的なアプローチを紹介
    • ガウス分布による近似のため、実数変数の場合のみ適用可能

4.4.1 モデルの比較とBIC

前節の結果を用いて、正規化係数 も近似することができる。

4.4.1 モデルの比較とBIC

  • この結果を用いて、モデルエビデンス についても近似を行う。
  • モデルエビデンスを近似した指標が得られれば、3.4節で議論したようにモデルの比較を行うことができる。

4.4.1 モデルの比較とBIC

  • データ集合 とパラメータ を持つモデル集合 を考える。
  • 各モデルに対し、尤度関数 を定義する。
  • パラメータ に関する事前確率 を導入し、モデルごとのエビデンス を考えることができる。

演習4.22 ラプラス近似の結果を用いた対数モデルエビデンスの近似

, として、式(4.136) より、

演習4.22 の近似

対数をとると、

演習4.22 の近似

  • ここで、 は事後確率分布の最頻値での の値である。
  • 式(4.137)の右辺第1項は、最適なパラメータを使用して評価した対数尤度
  • 残り3つの項はモデルの複雑さに対するペナルティでオッカム係数と呼ばれる。

演習4.23 BIC(シュワルツ規準)導出

(4.137) について、事前分布がガウス分布であることと、そのヘッセ行列が非退化(最大階数)であること仮定すれば、モデルエビデンスに対する荒い近似によってBICを導出できる。

演習4.23 BIC導出

にガウス分布を仮定すると、

演習4.23 BIC導出

は簡単のため省略すると、

演習4.23 BIC導出

より、対数項の積を和に書き直すと、

演習4.23 BIC導出

仮定した多変量ガウス分布のが平坦であるか、データ量が十分大きければ、 に対して を無視できて、

演習4.23 BIC導出

演習4.23 BIC導出

仮定したガウス分布が所与とすると、 は定数であり、基準値としては無視して良い項となるので、

演習4.23 BIC導出

さらに、データ点を i.i.d. と仮定すると、ヘッセ行列をデータ点ごとの影響度の和として表現できるので、その影響度の平均値を とすると、

より、

演習4.23 BIC導出

の行列だから、最大階数であると仮定すると、

演習4.23 BIC導出

は十分大きいと仮定して他の項を無視すると、

AICとの比較

  • AIC, BICとも最適なモデルを選択するための指標としてよく用いられる。

  • 近似の際、は十分大きいと仮定していることに注意すると、AICと比較し、BICの方がモデルの複雑さにより重いペナルティを課していると分かる。

完全なベイズアプローチ(3.4節)との比較

  • どちらの基準も評価が簡単で使いやすいが、モデルパラメータの不確実性は考慮できていない。
  • BICでいえば、多くのパラメータが well-determined でない(3.5.3節 有効パラメータ数)ため、ヘッセ行列が最大階数という仮定が妥当でない。

完全なベイズアプローチとの比較

  • そのため、Mの部分が実際より大きく見積もられており、3.4節でみた完全なベイズアプローチと比べると、過度にシンプルなモデルを選ぶ傾向がある(過学習と逆の傾向)。
  • 5.7節でベイズ的にNNを扱う際、式(4.137)を用いることで、より精度良くモデルエビデンスを推定できる。

4.5 ベイズロジスティック回帰

これからやること

  • ロジスティック回帰の厳密なベイズ推論は難しい
    • 事後確率分布の評価の難しさ
      • 事前確率分布と尤度関数(ロジスティックシグモイド関数の積)の積を全てのデータ点について計算し、正規化する必要がある
    • 予測分布の評価は、事後確率分布についての周辺化なので、同様に難しい
  • そこで、ラプラス近似を用いる

4.5.1 ラプラス近似

4.5.1 ラプラス近似

パラメータ に関する事後分布をガウス分布で近似したいので、事前分布もガウス分布と仮定するのが自然

事前ガウス分布は一般形 を用いる。

4.5.1 ラプラス近似

  • ここで、はある固定のハイパーパラメータ
  • の事後分布は、
  • 両辺の対数をとって、事前確率分布と尤度関数の定義から、対数事後確率分布を導出する。

ただし、 である。

4.5.1 ラプラス近似

  • この事後確率分布を最大化すると、最大事後確率解 が得られる。
  • これは、ガウス分布における、最頻値かつ平均値である。
  • 共分散は、負の対数尤度における2階微分行列の逆行列であり、

4.5.1 ラプラス近似

よって、事後確率分布のガウス分布による近似は と書ける。

後は、予測分布を得るために、この近似ガウス分布を積分して周辺化すればよい。

4.5.2 予測分布

4.5.2 予測分布

新たな特徴ベクトル が入力された際のクラス に対する予測分布は、事後確率分布 に関して周辺化して得られる。つまり、

2クラス分類の場合

2クラス問題を考えると、クラス に対する予測分布は で与えられる。

ラプラス近似

とすると、

  • 前節の結果を用いて、事後分布をガウス分布に近似した結果、予測分布はシグモイド関数でのガウス分布の畳み込み積分となった。
  • 解析的な評価は難しいので、シグモイド関数 をプロビット関数の逆関数 を使って近似することを考える。

シグモイド関数のプロビット関数の逆関数による近似

であり、下の図のように での両者の傾きをそろえるための定数。

figure4.9

近似予測分布

これにより畳み込み積分の結果別のプロビット関数の逆関数で解析的に評価でき、

として、 に戻すことで、以下の近似予測分布を得る。

近似予測分布

  • となる決定境界は で得ることができ、 の最大事後確率値と等しい。
  • なので、事前確率が一様で、目的が誤分類最小化の場合は、周辺化によるベイズ的な取り扱いに意味はない(分布を利用して複雑な決定規準を定める際に使う)
  • ラプラス近似の下でのロジスティックシグモイドモデルの周辺化は、変分推論の枠組みで図10.13で説明される。

まとめ

  • ラプラス近似は、モードを定めてガウス分布でフィッティングを行う手法のこと
  • 近似の過程でモデルエビデンスも荒く近似することができ、これはモデル選択に使えるBICとなった
  • ロジスティック回帰(分類)をベイズ的に扱う際、解析的な評価の難しさを近似によって解決できた

5 ニューラルネットワーク

これまでの流れ

  • 3・4章でみた線形モデルは解析しやすいメリットがあった
  • が、次元の呪いのために実際の応用は限られていた
  • 基底関数をデータに適応させる必要がある

SVM(7章)

  1. 訓練データ点を中心とした基底関数群を定義
  2. 訓練中に↑の一部を選択

SVM(7章)の特徴

  • 訓練は非線形最適化だが、目的関数は常に凸であり最適化しやすい
  • 基底関数はデータ点よりも遥かに少なくなる
  • が、一般的にはまだ多い
  • 訓練集合の増加とともに増加する

RVM(7.2節)

  • SVM同様、固定された基底関数の一部を選択
  • SVMよりは基底関数が少ない
  • SVMと異なり確率を出力できる
  • が、訓練時に非凸最適化が必要

(フィードフォワード)ニューラルネットワーク

  • 事前に基底関数の数は固定し、適応的に配置する
    • 基底関数に対してパラメトリックな関数を使い、パラメータを訓練で学習
  • 多層パーセプトロンとも
    • 不連続な非線形性を持つ複数のパーセプトロンではなく
    • 連続的な非線形性を持つ多層ロジスティック回帰モデル

(フィードフォワード)ニューラルネットワーク

  • 多くの場合、同じ汎化性能を持つSVMよりコンパクト
    • 評価も高速
  • RVM同様、尤度関数はパラメータについての凸関数にならない
    • が、実用上は学習の多くの時間を割いてでも、新規のデータを高速に評価できる方が良いのでOK

ニューラルネットワークの起源

  • 起源は生体システムの情報処理を数学的に表現しようとする試み(McCulloch and Pitts, 1943)
  • 生物学的な妥当性には批判もあるが、応用的観点からは不要な制約
  • → 実用的な多層パーセプトロンについてみていく

5章の議論の流れ

  • 5.1 ネットワークモデルの関数の形について
    • 基底関数をどのようにパラメータ表示するか?
  • 5.2 最尤推定でのパラメータの決定
    • 非線形最適化問題をどのように解くか?
    • 5.3 対数尤度関数のパラメータについての微分をどう効率的に得るか?(誤差逆伝播)
    • 5.4 誤差逆伝播の拡張(ヤコビ・ヘッセ行列の評価)

5章の議論の流れ

  • 5.5 ニューラルネットワークの正則化
  • 5.6 ニューラルネットワークモデルの拡張
    • 混合密度ネットワーク
      • 条件付き確率分布のモデル化
  • 5.7 ベイズ的ニューラルネットワーク
  • NNに関するその他の背景は (Bishop, 1995a) を参照