比較的読みやすい本を中心に紹介します。今後は毎年このページを更新します。
微分積分
高校数学をきちんとやっておけばそんなに困ることないような。偏微分とテイラー展開は大学演習のような本でしっかりやっておきましょう。ラグランジュの未定乗数法のような、統計・機械学習で必要になる部分は、ネット等で学べばいいかなと思っています。
線形代数
tensorflowなどのおかげで順伝播部分(行列積および行列とベクトルの積)さえ書ければ線形代数の知識はそこまでいらないんじゃないかという流れを感じます。しかし、主成分分析やトピックモデルなどの行列分解や、ガウス過程などのカーネル法のような様々なデータ解析の手法に一歩踏み込むと、きちんとした勉強が必要になります。理解しやすくて使いやすくて、統計や機械学習への応用を主眼においた線形代数の本はまだ見たことないです。機械学習シリーズとかで基礎から「The Matrix Cookbook」*1までを視野に入れた本が出てきてくれると良いのですが。
以下では個人的な好みの教科書を挙げておきます。「線形代数とその応用」です。ちなみにこれは第1版の翻訳ですが、原著の方は第4版まで出ています。
- 作者: ギルバートストラング,山口昌哉,井上昭
- 出版社/メーカー: 産業図書
- 発売日: 1978/07/07
- メディア: 単行本
- 購入: 5人 クリック: 72回
- この商品を含むブログ (6件) を見る
統計学入門
色々読んでみましたが、現在決定版と言えるものは存在しないように思えました。個人的には、シグマと積分の復習、場合の数・数え上げの方法、確率、確率変数、確率密度、度数分布とヒストグラム、代表値・平均・分散、確率分布、同時分布、周辺分布、確率変数の変数変換、検定、散布図と箱ひげ図、回帰、相関あたりをRやPythonなどを使いながらシンプルに説明していく本があるといいと思うのですが、なかなかバランスのとれたいい本がありません。初歩の初歩しか説明してない、グラフが少ない、検定にページを割きすぎ、分厚い、ちょっと難しいなどの不満点があります。立ち読みして自分にあった本を選ぶのがいいと思います。
読み物では大村平先生のシリーズをオススメします。僕は「確率のはなし」「統計のはなし」「統計解析のはなし」「多変量解析のはなし」「実験計画と分散分析のはなし」「ORのはなし」を持っていますが、どれも読みやすくて面白いです。特に「統計解析のはなし」「実験計画と分散分析のはなし」「ORのはなし」が面白かった記憶があります。
統計解析のはなし―データに語らせるテクニック (Best selected Business Books)
- 作者: 大村平
- 出版社/メーカー: 日科技連出版社
- 発売日: 2006/08/01
- メディア: 単行本
- 購入: 10人 クリック: 114回
- この商品を含むブログ (9件) を見る
- 作者: 大村平
- 出版社/メーカー: 日科技連出版社
- 発売日: 2013/01/01
- メディア: 単行本
- この商品を含むブログ (1件) を見る
- 作者: 大村平
- 出版社/メーカー: 日科技連出版社
- 発売日: 2015/05/01
- メディア: 単行本
- この商品を含むブログを見る
統計学演習
統計の実力向上のためには、「紙と鉛筆で手を動かして計算する」という経験がどこかで必要になります。そこで、シグマと積分はすでに慣れ親しんで、統計の初歩は少し知っている人に「統計学演習」をオススメします。
- 作者: 村上正康,安田正実
- 出版社/メーカー: 培風館
- 発売日: 1989/01/01
- メディア: 単行本
- 購入: 5人 クリック: 9回
- この商品を含むブログ (6件) を見る
Rを使って機械学習に詳しくなりたい
RやPythonを使って機械学習をやってみようという本は多いのですが、手法の背後にある考え方までもきちんと説明している本はあまり見たことありません。その中で「Rによる統計的学習入門」は非常にオススメです。
- 作者: Gareth James,Daniela Witten,Trevor Hastie,Robert Tibshirani,落海浩,首藤信通
- 出版社/メーカー: 朝倉書店
- 発売日: 2018/08/03
- メディア: 単行本(ソフトカバー)
- この商品を含むブログ (1件) を見る
原著は「An Introduction to Statistical Learning with Applications in R」でここからpdfがダウンロードできます。著者の中はあのHastie先生とTibshirani先生もいます。この本をもとにしたオンライン授業もここから無料で受講することができます。阪大などの授業でも使われているようです。
Rを使って伝統的な統計手法に詳しくなりたい
「Rで楽しむ統計」がオススメです。統計解析で陥りやすいミスなども随所にあって面白いです。例えば、正規性の検定をしてからt検定をするような二段階検定がたまに行われているのを見かけますが、それがいけない理由は??
- 作者: 奥村晴彦,石田基広,市川太祐,高橋康介,高柳慎一,福島真太朗
- 出版社/メーカー: 共立出版
- 発売日: 2016/09/08
- メディア: 単行本
- この商品を含むブログ (8件) を見る
Pythonを使って機械学習に詳しくなりたい
「第2版 Python機械学習プログラミング」をオススメします。第1版の書評を以前書きました。
「Python機械学習プログラミング」 Sebastian Raschka(著), 株式会社クイープ(訳), 福島真太朗(監訳) - StatModeling Memorandum
[第2版]Python 機械学習プログラミング 達人データサイエンティストによる理論と実践 (impress top gear)
- 作者: Sebastian Raschka,Vahid Mirjalili,福島真太朗,株式会社クイープ
- 出版社/メーカー: インプレス
- 発売日: 2018/03/16
- メディア: 単行本(ソフトカバー)
- この商品を含むブログ (2件) を見る
Pythonを使って統計をはじめたい
「Pythonで理解する統計解析の基礎」をオススメします。易しいところを主にカバーしています。Pythonの初歩と統計の初歩のバランスが良いです。
Pythonで理解する統計解析の基礎 (PYTHON×MATH SERIES)
- 作者: 谷合廣紀,辻真吾
- 出版社/メーカー: 技術評論社
- 発売日: 2018/09/21
- メディア: 単行本(ソフトカバー)
- この商品を含むブログを見る
Rの初歩と伝統的な統計を知っている人が統計モデリングをはじめたい
「データ解析のための統計モデリング入門」をオススメします。一般化線形モデルを含めて一歩ずつ学んでいきます。Rのコマンドの説明も丁寧で親切です。
データ解析のための統計モデリング入門――一般化線形モデル・階層ベイズモデル・MCMC (確率と情報の科学)
- 作者: 久保拓弥
- 出版社/メーカー: 岩波書店
- 発売日: 2012/05/19
- メディア: 単行本
- 購入: 16人 クリック: 163回
- この商品を含むブログ (29件) を見る
プログラミング少しできる人が統計モデリングに詳しくなりたい
「StanとRでベイズ統計モデリング」をオススメします。StanはEdwardやPyroなどと同様の確率的プログラミング言語で、高次元のパラメータ空間からサンプリングを効率的に行えるのが特徴です。今後、確率的プログラミング言語で新しい独自モデルを試行錯誤していきたい人にとっても一読の価値があると思います。
StanとRでベイズ統計モデリング (Wonderful R)
- 作者: 松浦健太郎,石田基広
- 出版社/メーカー: 共立出版
- 発売日: 2016/10/25
- メディア: 単行本
- この商品を含むブログ (10件) を見る
因果推論や効果測定を詳しく知りたい
「岩波データサイエンス vol.3」がオススメです。統計を扱う上で非常に重要なのが因果関係ですが、この本を除いて読みやすい類書がほとんどありません。傾向スコアだけでなく、反実仮想を考えた回帰モデルやRCT(ランダム化比較試験)との対応がきちんと書いてあって勉強になりました。
- 作者: 岩波データサイエンス刊行委員会
- 出版社/メーカー: 岩波書店
- 発売日: 2016/06/10
- メディア: 単行本(ソフトカバー)
- この商品を含むブログ (4件) を見る
Rのデータ処理や可視化に詳しくなりたい
Rといえばデータ処理能力と作図能力がずば抜けています。これらについては「RユーザのためのRStudio実践入門」をオススメします。Rの新しめの文法がメインですが、これから主流になっていくことは間違いないと思っていますので、ここから入門でよいと思います。
RユーザのためのRStudio[実践]入門−tidyverseによるモダンな分析フローの世界−
- 作者: 松村優哉,湯谷啓明,紀ノ定保礼,前田和寛
- 出版社/メーカー: 技術評論社
- 発売日: 2018/06/29
- メディア: 大型本
- この商品を含むブログ (1件) を見る
プログラミング言語としてのRに詳しくなりたい
「Rプログラミング本格入門: 達人データサイエンティストへの道」がオススメです。Rubyなど他のプログラミング言語に慣れているようなエンジニアに特に向いていると思います。前半はRの簡潔で良質なまとめ、後半はメタプログラミング・データベース操作・高速化手法など中級者向けの話題です。統計手法はあまり載っていません。僕はR言語徹底解説は8章から難しくなってきて読み切れなかったのですが、この本は読み切ることができました。
Rプログラミング本格入門: 達人データサイエンティストへの道
- 作者: Kun Ren,湯谷啓明,松村杏子,市川太祐,ホクソエム
- 出版社/メーカー: 共立出版
- 発売日: 2017/11/23
- メディア: 単行本
- この商品を含むブログ (1件) を見る
Stanにもっと詳しくなりたい
Stanのマニュアルがオススメです。日本語化プロジェクトがあり、少し前のバージョンですが主要パートについては日本語訳もほとんど完成しています(ここ)。現在は原文に忠実にするよりも、より大胆にそぎ落として分かりやすい日本語にするのを目標にしてます。もともとの英語が難しく訳に苦戦している箇所もあるので、勉強がてら是非プロジェクトへの参加をお待ちしております。 github.com