Tweedie分布のパラメータを推定する

Stan

@dichikaさんのブログ記事でTweedie分布の存在を知りました。Stanのメーリングリストでも「推定できないの？」という質問は過去にありましたが、多忙のBobさんからは「summing out（離散値をとるパラメータの和をとって消去）すればできるかもねー」という素…

2016-02-19

二つの時系列データの間に「差」があるか判断するには

現実のデータ Stan

詳しい経緯はこのまとめを参照してください。時間軸でぶった切って各時点で検定を使う手法は、百歩譲って「差があるかどうか」は判定できるかもしれないけど、「どれほど異なるのか」については何も言えない。「どの時刻から異なるか」についても言えるか分…

2016-01-30

NUTSとADVI（自動変分ベイズ）の比較

Stan

RStan2.9.0がリリースされました。今まで{rstan}パッケージのsampling関数を使っていたところを、vb関数に変更するだけでサンプリングのアルゴリズムをNUTSからADVI（Automatic Differentiation Variational Inference）に変更することができます。ADVIはユ…

2016-01-09

岩波データサイエンスvol1のいくつかの例題をStanでやってみた

Stan BUGS

岩波データサイエンスは従来の書籍とは異なり、以下のサポートページの異様な充実がウリの一つです。 https://sites.google.com/site/iwanamidatascience/ 岩波データサイエンス Vol.1発売日: 2015/10/08メディア: 単行本（ソフトカバー）また、StanとRStan…

2015-11-29

「使える大学・使えない大学」の事例から考えるアンケートの解析方法

現実のデータ Stan

少し前に週刊ダイヤモンドの記事「使える大学・使えない大学」の結果がインターネット上で話題になっていました。具体的には以下のデータです。引用元はこちら（参考: Googleブックスの書籍を引用するには）画像の下の方の注意書きにも注目。有効回答数は…

2015-11-21

分布から見た線形モデル・GLM・GLMM

BUGS Stan

久保さんのみどりぼん勉強会もせっかく催されていることだし、それにちなんだ記事を書きたいと思っていました。ここまでいい加減にGLMとGLMMをすっ飛ばして紹介して、さっさとBUGS/Stanのラビリンスパラダイスへいざないたいなぁという心境をスライドにしま…

2015-10-17

ガウス過程シリーズ 3 クラス分類（PRML下 Fig 6.12）

Stan

今回はGaussian Processで2値クラス分類を行います。2値なのでlogistic linkをかませばOKです。しかしながら、高速化ができなくなります。Stan manualの中にも登場しますがinfer.netの例題の中の「Short Examples: Gaussian Process classifier」にも登場し…

2015-10-10

ガウス過程シリーズ 2 高速化＆フルベイズ

Stan

前回の記事のスピードアップをします。まずは分散共分散行列をコレスキー分解して multi_normal() から multi_normal_cholesky() を使うようにする方法です。このテの高速化の基本とのことです。コレスキー分解をするメリットはzがi.i.d.から生成される、す…

2015-10-03

ガウス過程シリーズ 1 概要

Stan

Stanのマニュアルの「Gaussian Processes」の章を実際に実行しましたので記録を残します。結論から言いますと、Stanでやる場合は回帰はよいですがクラス分類に使おうとすると計算が遅いし収束も悪いです。まずGaussian Process（以下GPと呼ぶ）とは何ぞやと…

2015-09-12

WAICとWBICを事後分布から計算する

Stan R

前回の理論的なまとめを踏まえてStanでWAICとWBICを計算してみます。今回は例題として混合正規分布から発生させたデータ100個を用いて、2種類のモデルで推定を行い、それぞれに対してWAICとWBICを求めてみます。まずはデータ生成部分のRコードは以下です。 …

2015-06-27

RStanで『予測にいかす統計モデリングの基本』の売上データの分析をする

現実のデータ Stan

12/22(日)にBUGS/Stan勉強会#2がドリコム株式会社にて催されました。そこで2つ発表をしました。そのうちの1つ「『予測にいかす統計モデリングの基本』の売上データの分析をトレースしてみた」に関する詳細＆補足＆苦労話をここで書きたいと思います。RStanと…

2015-06-20

不等間隔の状態空間モデル

Stan

日付単位とかでデータを取ることが多いこのご時世、等間隔の状態空間モデルを使うことが多いと思います。しかし、ふと不等間隔の状態空間モデルってどうやるんだろーとつぶやいたところ、ご指導いただきました。いつも大変感謝です。 .@berobero11 細かく等…

2015-06-13

状態空間モデルでシステムノイズに非ガウス分布（1次元の変化点検出）

Stan

北川本「時系列解析入門」14.4節の例題をやってみましたので途中経過の作業ログとして残します。時系列解析入門作者:北川源四郎発売日: 2005/02/24メディア: 単行本まずは失敗例から。 data { int N; real Y[N]; } parameters { real mu[N]; real<lower=0> s_y; re</lower=0>…

2015-06-06

陽に解ける常微分方程式を使ったモデル

Stan

今回はデータの背後に簡単な（陽に解ける）常微分方程式で記述できるダイナミクスがあると仮定して、Stanでパラメータの推定を行いたいと思います。状況として定期的に（例えば一年ごとに）サービスをリリースした場合を考えます。それらのサービスを使う総…

2015-05-15

kivantiumさんのブログ記事「アニメキャラのバストサイズとPixiv R-18タグ率の関係」の追加解析

現実のデータ Stan

@kivantiumさんの以下のツイートが面白そうすぎて追加解析してみました。特に2つ目のツイートが重要で、これがないと階層ベイズでやってみようという気は起りませんでした。調査の結果、アニメキャラのバストサイズとPixivでR-18タグが付く割合の相関係数は…

2015-04-25

データ解析で割安賃貸物件を探せ！（山手線沿線編）

現実のデータ BUGS Stan

@housecat442さんのプレゼンにインスパイアされて、某S社様のサイトからスクレイピングさせていただき家賃予測を行いました。目的は広さ・最寄駅・築年や各種設備の割にお得な割安物件を探すことです。首都圏の賃貸物件を全て扱うのは大変なので、まずは山手…

2015-04-18

生存時間分析 - ハザード関数に時間相関の制約を入れる

Stan

今回のデータは以下のような、1日ごとに得られる観察打ち切りを含む何らかのイベント発生データです（この記事の最後のRコードで作成しています）。 timecens1111……34134130371431481501501500…… time列はイベント発生の時刻、cens列は打ち切りの場合は0, イ…

2015-03-14

ノンパラベイズ（ディリクレ過程）の実装

BUGS Stan

BUGS bookの11章の8.1節のディリクレ過程の写経です。データは以下のサポートページ（11.8.1: Galaxy clustering: Dirichlet process mixture models）でWinBUGS用のodcファイルで配布されています。 WinBUGSをインストールしていない人のために.RDataにした…