変分法をごまかさずに変分ベイズの説明をする

StanでADVIが使えるようになったので、変分ベイズの基礎は抑えておきたいなぁと思って最近学んでいました。自分向けのメモとして残します。

対数周辺尤度・変分下限・KL情報量

目的は事後分布 f:id:StatModeling:20201114170400p:plain の最もよい近似となる f:id:StatModeling:20201114170003p:plain を求めることです。にはあとで因子分解可能 f:id:StatModeling:20201114165645p:plain という条件を入れます。

イエンセンの不等式を使って、対数周辺尤度 f:id:StatModeling:20201114165649p:plain を下から評価すると、

f:id:StatModeling:20201114165653p:plain

f:id:StatModeling:20201114165657p:plain

f:id:StatModeling:20201114165701p:plain

f:id:StatModeling:20201114165704p:plain を変分下限と呼びます。任意の関数 f:id:StatModeling:20201114170003p:plain の関数です。対数周辺尤度はevidenceとも呼ばれるため、変分下限はevidence lower bound、略してELBOとも呼ばれます。対数周辺尤度と変分下限の差は、

f:id:StatModeling:20201114165709p:plain

f:id:StatModeling:20201114165712p:plain

f:id:StatModeling:20201114165716p:plain

となります。これは f:id:StatModeling:20201114170003p:plain と事後分布 f:id:StatModeling:20201114170400p:plain のKL情報量（Kullback-Leiblerdivergence）です。対数周辺尤度が f:id:StatModeling:20201114165720p:plain にはよらない、データのみから決まる定数であることを考えると、事後分布の最もよい近似となる f:id:StatModeling:20201114170003p:plain を求めることは、変分下限を最大化することに等価になります。そのため、変分下限の最大化を目指します。ただし、は分布で積分すると1になる制約条件があるのでラグランジュの未定乗数法を使って、

f:id:StatModeling:20201114165727p:plain (1)

を最大化すればOKです。以降では表記を簡潔にするため f:id:StatModeling:20201114165732p:plain と書きます。

変分法

(1)式に限らず、 f:id:StatModeling:20201114170003p:plain で値が決まるある関数 f:id:StatModeling:20201114165736p:plain があって、がの最大値を与えるとします。から少しずれたの時のをとすると以下が成り立ちます。

f:id:StatModeling:20201114165756p:plain

これから導かれる必要条件は、

f:id:StatModeling:20201114165801p:plain

と展開した時、

f:id:StatModeling:20201114165805p:plain

となることです。この左辺 f:id:StatModeling:20201114165809p:plain を汎関数の変分と呼び、以下で定義します。

f:id:StatModeling:20201114165817p:plain

次に、

f:id:StatModeling:20201114165822p:plain

と表せる時を考えます。簡潔さを重視して以下のように表記します。

f:id:StatModeling:20201114165825p:plain

それでは変分を求めます。

f:id:StatModeling:20201114165829p:plain

であることを考慮すると、

f:id:StatModeling:20201114165833p:plain

f:id:StatModeling:20201114165836p:plain

f:id:StatModeling:20201114165840p:plain

f:id:StatModeling:20201114165843p:plain

となるので、

f:id:StatModeling:20201114165847p:plain

となるためには以下が成り立たなくてはいけません。

f:id:StatModeling:20201114165851p:plain 　　(2)

変分ベイズ（2パラメータの場合）

f:id:StatModeling:20201114165854p:plain と因子分解できる f:id:StatModeling:20201114170003p:plain の中で、(1)式を最大化する f:id:StatModeling:20201114165950p:plain を考えます。いま(1)式は以下です。

f:id:StatModeling:20201114165903p:plain

f:id:StatModeling:20201114165907p:plain

ここで、

f:id:StatModeling:20201114165912p:plain

f:id:StatModeling:20201114165915p:plain

と置くと、

f:id:StatModeling:20201114165822p:plain

の形になるので(2)式を満たさなくてはいけません。

f:id:StatModeling:20201114165920p:plain

f:id:StatModeling:20201114165925p:plain

ここで、 f:id:StatModeling:20201114165928p:plain はに依存しないので、定数とみなすと、

f:id:StatModeling:20201114165935p:plain

となります。同様に(2)式の残りの式からは、以下が導かれます。

f:id:StatModeling:20201114165939p:plain

実装においては、 f:id:StatModeling:20201114165942p:plain の初期分布を決める→を求める→を求める→を求める→…という具合に変分下限がこれ以上上がらないところまで繰り返します。その結果が知りたかったになります。うまく共役な分布を使うことができれば f:id:StatModeling:20201114165953p:plain やの分布の形が決まるので正規化定数を求める手間がなく、簡潔で高速な実装が可能です。しかし、一般には数値積分をして正規化定数を求める必要があると思います。

2018.4.1追記

上記の式に従ってSymPyで簡単な例題を扱う記事を書きました。 statmodeling.hatenablog.com

参考文献

以下の文献はどれもためになるのですが途中からかなり難解です。[4],[5]では変分法の部分は「変数とみて微分すればよい」という、はしょった書き方になっていてよく分かりませんでした。

2016/4月に発行される予定である、[6]には期待しています。「こんなモデルの場合だとうまくいかない」「データに対してこういう変換を前もってすれば、近似がよくなる」などのノウハウがあるといいなぁと思っています。

[1] Ormerod, J.T. and Wand, M.P. (2010)　Explaining variational approximations.　The American Statistician, 64, 140-153 [pdf]
[2] David M. Blei, Alp Kucukelbir, Jon D. McAuliffe (2016) Variational Inference: A Review for Statisticians. arXiv:1601.00670 [stat.CO] [URL]
[3] C.M. ビショップ　(2012) パターン認識と機械学習下
[4] 佐藤一誠 (2015) トピックモデルによる統計的潜在意味解析
[5] 岩田具治 (2015) トピックモデル
[6] 中島伸一 (2016) 変分ベイズ学習