統計家やデータサイエンティストを志す大学生・大学院生に読んでほしい、正統派の本です。 目次はこちら。コードを含むサポートページはこちら。類書としては『Rによる統計的学習入門』があります。
この本の特徴は、親しみやすい説明とRを実行する部分と、背景の数理を説明するガチの数理編の2パートから構成される点です。ふつうだと著者の能力の限界により前半パートだけ集めた本、あるいは後半パートだけ集めた本になりがちですが、そうはなっていません。数理を専門とする著者が、学生を指導する経験を通して書かれた教育的な本になっています。
Rを実行する部分は丁寧で、私も知らなかった関数や引数があり勉強になりました。特に好きだった章は以下です。
- 2章 データの可視化と要約
- 10章 ブートストラップ法
- 11章 Rを用いたシミュレーション:数理統計学を「実感」する
- それぞれの章末にある練習問題
早速2章に可視化を据えるところがいいですね。わたしも(機械学習を含む)データ解析においてはまずは可視化が重要と思っており、ここはRの独断場と思っています。ggplot2
の説明こそないですが、プログラミングに不慣れな大学生でも無理なく実行できるように基本的な関数で可視化の要所を抑えています。10章のブートストラップ法は数理の説明とRコードが対応していて分かりやすかったです。応用編にランダムフォレストの説明もあって良かったです。11章のシミュレーションでは、統計初心者が間違えがちな不偏性、サンプルサイズの計算などが簡潔なコードとともに説明されています。章末の練習問題は、考え方の復習とRによるデータ解析の練習場として非常に良いです。そのまま会社の新人に宿題として出したいです。
各章の数理編は格調高いです。かなり難しい部分もありました。査読した院生すごいです。『Rによる統計的学習入門』の数理的な説明にモヤっとしてた人にフィットします。統計学で行列がどのように使われるのか、どう役に立つのかをきちんと見せてくれます。ただし数式の変形は丁寧な部分と行間を読む必要がある部分があります。個人的には、数理編の説明をもとに実装した(パッケージを使わない)Rコードもあると勉強になっていいなぁと思いました。本の分量が倍ぐらいになってしまうかもですが。
enjoy!
- 作者:林 賢一
- 発売日: 2020/11/30
- メディア: 単行本
- 作者:Gareth James,Daniela Witten,Trevor Hastie,Robert Tibshirani
- 発売日: 2018/08/03
- メディア: 単行本(ソフトカバー)