StatModeling Memorandum

StatModeling Memorandum

StanとRとPythonでベイズ統計モデリングします. たまに書評.

統計・数学・R関連で用途別のオススメ書籍

比較的読みやすい本を中心に紹介します。2016年も同様の記事を書きましたが新しい本も出たので更新しました。今後はこのページを更新します。

数学入門

かなり前に大学卒業した人が数学に再入門しようと思っても、いきなり大学数学の問題集は解けません。もしくは式変形を眺めて分かった気になるだけで成長がありません。そこで高校数学の「黄色チャート」で特訓です。独力で式変形する練習をします。例題と重要例題だけ解きまくるのがオススメです。I・II・IIIは続き物なので、Iが簡単すぎるならIIやIIIへ進むこともできます。Aは場合の数と数列、Bはベクトル、Cは行列と確率分布が重要です。勉強と思わず、電車内で遊ぶパズルと思って純粋に楽しんだらいいと思います。

改訂版チャート式解法と演習数学1+A

改訂版チャート式解法と演習数学1+A

チャート式解法と演習数学2+B

チャート式解法と演習数学2+B

チャート式 解法と演習数学3+C 改訂版

チャート式 解法と演習数学3+C 改訂版

微分積分

高校数学は完璧とすれば、大学の微積で必要なのは偏微分テイラー展開がしっかりできることと思ってます。そこで「新しい微積分<上>」をすすめます。

新しい微積分<上> (KS理工学専門書)

新しい微積分<上> (KS理工学専門書)

統計や機械学習の分野でよく使うけど、上記のような教科書にあまり登場しない話題として、ラグランジュの未定乗数法などがあります。そういう話題はネットや別の本で学びましょう。

線形代数

tensorflowなどのおかげで順伝播部分(行列積および行列とベクトルの積)さえ書ければ線形代数の知識はそこまでいらないんじゃないかという流れを感じます。しかし、主成分分析やトピックモデルなどの行列分解や、ガウス過程などのカーネル法のような様々なデータ解析の手法に一歩踏み込むと、きちんとした勉強が必要になります。理解しやすくて使いやすくて、統計や機械学習への応用を主眼においた線形代数の本はまだ見たことないです。機械学習シリーズとかで基礎から「The Matrix Cookbook」*1までを視野に入れた本が出てきてくれると良いのですが。

以下では個人的な好みの教科書を挙げておきます。「線形代数―基礎と応用」です。2x2行列の場合から徐々に説明していく点と、図形と関連づけて説明することが多い点が分かりやすくて好きです。

講座 数学の考え方〈3〉線形代数―基礎と応用

講座 数学の考え方〈3〉線形代数―基礎と応用

統計学入門

色々読んでみましたが、現在決定版と言えるものは存在しないように思えました。個人的には、シグマと積分の復習、場合の数・数え上げの方法、確率、確率変数、確率密度、度数分布とヒストグラム、代表値・平均・分散、確率分布、同時分布、周辺分布、確率変数の変数変換、検定、散布図と箱ひげ図、回帰、相関あたりをRやPythonなどを使いながらシンプルに説明していく本があるといいと思うのですが、なかなかバランスのとれたいい本がありません。初歩の初歩しか説明してない、グラフが少ない、検定にページを割きすぎ、分厚い、ちょっと難しいなどの不満点があります。立ち読みして自分にあった本を選ぶのがいいと思います。

読み物では大村平先生のシリーズをおすすめします。最近、hoxo_m さんと僕がともに大村氏の本で確率統計をはじめたと分かって盛り上がりました。僕は「確率のはなし」「統計のはなし」「統計解析のはなし」「多変量解析のはなし」「実験計画と分散分析のはなし」「ORのはなし」を持っていますが、どれも読みやすくて面白いです。特に「統計解析のはなし」「実験計画と分散分析のはなし」「ORのはなし」は面白かった覚えがあります。

統計解析のはなし―データに語らせるテクニック (Best selected Business Books)

統計解析のはなし―データに語らせるテクニック (Best selected Business Books)

ORのはなし―意思決定のテクニック

ORのはなし―意思決定のテクニック

統計学演習

統計の実力向上のためには、「紙と鉛筆で手を動かして計算する」という経験がどこかで必要になります。そこで、シグマと積分はすでに慣れ親しんで、統計の初歩は少し知っている人に「統計学演習」をオススメします。

統計学演習

統計学演習

演習問題の難易度と内容が素晴らしいです。しかし、演習の前にある簡潔なまとめは説明がないので、復習として使うのがよいでしょう。

プログラミング言語としてのRに詳しくなりたい

「Rプログラミング本格入門: 達人データサイエンティストへの道」がオススメです。Rubyなど他のプログラミング言語に慣れているようなエンジニアに特に向いていると思います。前半はRの簡潔で良質なまとめ、後半はメタプログラミング・データベース操作・高速化手法など中級者向けの話題です。統計手法はあまり載っていません。僕はR言語徹底解説は8章から難しくなってきて読み切れなかったのですが、この本は読み切ることができました。

Rプログラミング本格入門: 達人データサイエンティストへの道

Rプログラミング本格入門: 達人データサイエンティストへの道

Rのデータ処理に詳しくなりたい

Rといえばデータ処理能力と作図能力がずば抜けています。データ処理については今のところ「Rではじめるデータサイエンス」をオススメします。翻訳者がRを普段から使っていないためなのか、日本語による記述はやや微妙な部分があると感じますが。

Rではじめるデータサイエンス

Rではじめるデータサイエンス

Rの可視化(ggplot2)を使ってみたい

今のところ「Rグラフィックスクックブック」がオススメです。カラーページが多くびびります。

Rグラフィックスクックブック ―ggplot2によるグラフ作成のレシピ集

Rグラフィックスクックブック ―ggplot2によるグラフ作成のレシピ集

プログラミング少しできる人が統計モデリングに詳しくなりたい

「StanとRでベイズ統計モデリング」をオススメします。StanEdwardPyroなどと同様の確率的プログラミング言語で、高次元のパラメータ空間からサンプリングを効率的に行えるのが特徴です。今後、確率的プログラミング言語で新しい独自モデルを試行錯誤していきたい人にとっても一読の価値があると思います。*2

StanとRでベイズ統計モデリング (Wonderful R)

StanとRでベイズ統計モデリング (Wonderful R)

Rを使って機械学習に詳しくなりたい

RやPythonを使って機械学習をやってみようという本は多いのですが、手法の背後にある考え方までもきちんと説明している本はあまり見たことありません。洋書になってしまいますが、「An Introduction to Statistical Learning with Applications in R」がオススメです。ここからpdfがダウンロードできます。著者の中はあのHastie先生とTibshirani先生もいます。この本をもとにしたオンライン授業もここから無料で受講することができます。阪大などの授業でも使われているようです。

因果推論や効果測定を詳しく知りたい

「岩波データサイエンス vol.3」がオススメです。統計を扱う上で非常に重要なのが因果関係ですが、この本を除いて読みやすい類書がほとんどありません。傾向スコアだけでなく、反実仮想を考えた回帰モデルやRCT(ランダム化比較試験)との対応がきちんと書いてあって勉強になりました。

岩波データサイエンス Vol.3

岩波データサイエンス Vol.3

Stanにもっと詳しくなりたい

Stanのマニュアルがオススメです。日本語化プロジェクトがあり、少し前のバージョンですが主要パートについては日本語訳もほとんど完成しています(ここ)。現在は原文に忠実にするよりも、より大胆にそぎ落として分かりやすい日本語にするのを目標にしてます。もともとの英語が難しく訳に苦戦している箇所もあるので、勉強がてら是非プロジェクトへの参加をお待ちしております。 github.com

*1:研究者にとってハンドブック的に有名な本。行列の微分とかが載ってます。pdf file

*2:Edwardはバグは少し多めで機能追加を優先する傾向があります。MCMCサンプリングは収束が悪かったり、バグがまだまだ見つかっており(これとか)で実用に耐えれる印象はありません。現在のところEdwardなら自動変分ベイズで推定するのがオススメです。