StatModeling Memorandum

StatModeling Memorandum

StanとRとPythonでベイズ統計モデリングします. たまに書評.

Stanのマニュアル日本語訳プロジェクト

現在、有志でStan 2.9.0のマニュアルを翻訳しています。 https://github.com/stan-ja/stan-ja まったり進行ですが、すでに日本語訳も95ページほどとなっており、言語仕様や関数のリファレンスなどを除けば5~6割ぐらいに達していると思います。 翻訳の稼ぎ頭…

累積和を使って計算の無駄を省く(変化点検出の例)

メーリングリストでStanにおいて累積和を使って変化点検出を高速化する話がありましたのでメモです。 ここではRにはじめから用意されているNileのデータに対して変化点検出します。プロットすると以下です。 ここでは、ある変化点より左の部分では平均mu_l・…

Tweedie分布のパラメータを推定する

@dichikaさんのブログ記事でTweedie分布の存在を知りました。Stanのメーリングリストでも「推定できないの?」という質問は過去にありましたが、多忙のBobさんからは「summing out(離散値をとるパラメータの和をとって消去)すればできるかもねー」という素…

散布図行列を描くには (corrplot, pairs, GGally)

R

データが与えられた時にはまず可視化をします。そのデータがどのような仕組み(メカニズム)で作られてそうなったかを考えるために必須のプロセスです。しかしながら、どんな可視化がベストかははじめの段階では分からず、とにかくプロットしまくることにな…

二つの時系列データの間に「差」があるか判断するには

詳しい経緯はこのまとめを参照してください。時間軸でぶった切って各時点で検定を使う手法は、百歩譲って「差があるかどうか」は判定できるかもしれないけど、「どれほど異なるのか」については何も言えない。「どの時刻から異なるか」についても言えるか分…

NUTSとADVI(自動変分ベイズ)の比較

RStan2.9.0がリリースされました。今まで{rstan}パッケージのsampling関数を使っていたところを、vb関数に変更するだけでサンプリングのアルゴリズムをNUTSからADVI(Automatic Differentiation Variational Inference)に変更することができます。ADVIはユ…

変分法をごまかさずに変分ベイズの説明をする

StanでADVIが使えるようになったので、変分ベイズの基礎は抑えておきたいなぁと思って最近学んでいました。自分向けのメモとして残します。 対数周辺尤度・変分下限・KL情報量 目的は事後分布の最もよい近似となるを求めることです。にはあとで因子分解可能…

岩波データサイエンスvol1のいくつかの例題をStanでやってみた

岩波データサイエンスは従来の書籍とは異なり、以下のサポートページの異様な充実がウリの一つです。 https://sites.google.com/site/iwanamidatascience/ また、StanとRStanのはじめの一歩と言える使い方が載っています。また、作図を含めたソースコードがG…

傾向スコアを使ったベイズモデル

傾向スコアについては以下を参考にして下さい。 [1]統計的因果推論(傾向スコア)の勉強会資料をアプしてみた(web) [2]傾向スコアを用いた共変量調整による因果効果の推定と臨床医学・疫学・薬学・公衆衛生分野での応用について(pdf file) [3]傾向スコア…

「使える大学・使えない大学」の事例から考えるアンケートの解析方法

少し前に週刊ダイヤモンドの記事「使える大学・使えない大学」の結果がインターネット上で話題になっていました。具体的には以下のデータです。 引用元はこちら(参考: Googleブックスの書籍を引用するには) 画像の下の方の注意書きにも注目。有効回答数は…

分布から見た線形モデル・GLM・GLMM

久保さんのみどりぼん勉強会もせっかく催されていることだし、それにちなんだ記事を書きたいと思っていました。ここまでいい加減にGLMとGLMMをすっ飛ばして紹介して、さっさとBUGS/Stanのラビリンスパラダイスへいざないたいなぁという心境をスライドにしま…

Gaussian Process Latent Variable Models (GPLVM) を使ってみる

R

PCA(主成分分析)のド発展版に相当する、ガウス過程を用いたGPLVMをRからサクッと使うまでの備忘録です。 GPLVMの説明で分かりやすいのは、以下の統計数理研究所のH26年度公開講座「ガウス過程の基礎と応用」の持橋先生と大羽先生の発表資料です。 [1] 統計…

ガウス過程シリーズ 3 クラス分類(PRML下 Fig 6.12)

今回はGaussian Processで2値クラス分類を行います。2値なのでlogistic linkをかませばOKです。しかしながら、高速化ができなくなります。Stan manualの中にも登場しますがinfer.netの例題の中の「Short Examples: Gaussian Process classifier」にも登場し…

ガウス過程シリーズ 2 高速化&フルベイズ

前回の記事のスピードアップをします。 まずは分散共分散行列をコレスキー分解して multi_normal() から multi_normal_cholesky() を使うようにする方法です。このテの高速化の基本とのことです。コレスキー分解をするメリットはzがi.i.d.から生成される、す…

ガウス過程シリーズ 1 概要

Stanのマニュアルの「Gaussian Processes」の章を実際に実行しましたので記録を残します。結論から言いますと、Stanでやる場合は回帰はよいですがクラス分類に使おうとすると計算が遅いし収束も悪いです。 まずGaussian Process(以下GPと呼ぶ)とは何ぞやと…

WAICとWBICを事後分布から計算する

前回の理論的なまとめを踏まえてStanでWAICとWBICを計算してみます。 今回は例題として混合正規分布から発生させたデータ100個を用いて、2種類のモデルで推定を行い、それぞれに対してWAICとWBICを求めてみます。まずはデータ生成部分のRコードは以下です。 …

「ベイズ統計の理論と方法」渡辺澄夫のメモ

ベイズ推測を使う人はもちろんのこと、嫌う人にもぜひ一読をすすめたい書籍です。ただし、メインの定理の証明の部分は、代数幾何学の特異点解消定理を使いますし、その他にも複素関数論・経験過程といった知識を要求されます。これらの事前知識に詳しくない…

「基礎からのベイズ統計学―ハミルトニアンモンテカルロ法による実践的入門」豊田秀樹ら

ハミルトニアンモンテカルロ法を以下HMCと略します。この本の内容は主に次の4つに大別されます。 (1~3章・付録A)確率・ベイズの定理・ベイズ推定のおさらい & 伝統的な統計学とベイズ統計学の比較 (4~5章・付録B)事後分布からのサンプリングの詳細(…

「コマンドラインではじめるデータサイエンス」Jeroen Janssensら

この本ではMasonとWiggins(2010)のデータサイエンスの定義に従って解析をすすめていきます。すなわち、(1)データの獲得、(2)データのクレンジング、(3)データの精査、(4)データのモデリング、(5)データの解釈の5ステップです。(5)はコンピュータの出番が少な…

「データ分析プロセス」福島真太朗

書籍のタイトルは「データ分析プロセス」とありますが、偉い人を説得してどのようにデータを集めていくかを決めて、KPIをどう設定して~という、いわゆる啓蒙書ではありません。すでに顧客の行動データやPOSデータなどをデータベースに格納しつつあり、そこ…

RStanで『予測にいかす統計モデリングの基本』の売上データの分析をする

12/22(日)にBUGS/Stan勉強会#2がドリコム株式会社にて催されました。そこで2つ発表をしました。そのうちの1つ「『予測にいかす統計モデリングの基本』の売上データの分析をトレースしてみた」に関する詳細&補足&苦労話をここで書きたいと思います。RStanと…

不等間隔の状態空間モデル

日付単位とかでデータを取ることが多いこのご時世、等間隔の状態空間モデルを使うことが多いと思います。しかし、ふと不等間隔の状態空間モデルってどうやるんだろーとつぶやいたところ、ご指導いただきました。いつも大変感謝です。 .@berobero11 細かく等…

状態空間モデルでシステムノイズに非ガウス分布(1次元の変化点検出)

北川本「時系列解析入門」14.4節の例題をやってみましたので途中経過の作業ログとして残します。 まずは失敗例から。 data { int N; real Y[N]; } parameters { real mu[N]; real<lower=0> s_y; real<lower=0> s_mu; } model { for (n in 1:N) Y[n] ~ normal(mu[n], s_y); for </lower=0></lower=0>…

陽に解ける常微分方程式を使ったモデル

今回はデータの背後に簡単な(陽に解ける)常微分方程式で記述できるダイナミクスがあると仮定して、Stanでパラメータの推定を行いたいと思います。 状況として定期的に(例えば一年ごとに)サービスをリリースした場合を考えます。それらのサービスを使う総…

kivantiumさんのブログ記事「アニメキャラのバストサイズとPixiv R-18タグ率の関係」の追加解析

@kivantiumさんの以下のツイートが面白そうすぎて追加解析してみました。特に2つ目のツイートが重要で、これがないと階層ベイズでやってみようという気は起りませんでした。 調査の結果、アニメキャラのバストサイズとPixivでR-18タグが付く割合の相関係数は…

データ解析で割安賃貸物件を探せ!(山手線沿線編)

@housecat442さんのプレゼンにインスパイアされて、某S社様のサイトからスクレイピングさせていただき家賃予測を行いました。目的は広さ・最寄駅・築年や各種設備の割にお得な割安物件を探すことです。首都圏の賃貸物件を全て扱うのは大変なので、まずは山手…

生存時間分析 - ハザード関数に時間相関の制約を入れる

今回のデータは以下のような、1日ごとに得られる観察打ち切りを含む何らかのイベント発生データです(この記事の最後のRコードで作成しています)。 timecens1111……34134130371431481501501500…… time列はイベント発生の時刻、cens列は打ち切りの場合は0, イ…

JAGSで2次元のマルコフ場モデル

WinBUGS, JAGS, Stanの三姉妹を等しく愛する僕としては何使っても同時分布を自由に使えるんだよ、ということで2次元データのマルコフ場モデルをやりました。 まず1次元データに対するCAR modelは、Itoさんのこの記事とこの記事を参照。Rパッケージの{dlm}や{…

久保緑本11章のマルコフ場モデル(空間構造のあるベイズモデル)

空間ベイズモデルの一種であるマルコフ場モデルがやっと分かった気がしますので備忘録を書きます。 きっかけとなったのは以下の動画の復習です。0:13:50~0:16:30と1:14:50~1:32:20の部分です。統数研の伊庭先生がマルコフ場モデルについての講義をしている…

ノンパラベイズ(ディリクレ過程)の実装

BUGS bookの11章の8.1節のディリクレ過程の写経です。データは以下のサポートページ(11.8.1: Galaxy clustering: Dirichlet process mixture models)でWinBUGS用のodcファイルで配布されています。 WinBUGSをインストールしていない人のために.RDataにした…