StatModeling Memorandum

StatModeling Memorandum

StanとRとPythonでベイズ統計モデリングします. たまに書評.

ゲルマン先生の「役に立つ統計用語集」

この記事はゲルマン先生(Andrew Gelman)の許諾を得て、Handy statistical lexiconを日本語訳したものです。元記事の用語集は現在も更新中です。英語に抵抗がない人はぜひ元記事を読んで下さい。訳語に関しては親しみやすさを重視し、多くの日本人にあまりなじみのないと思われる言葉や地名は変え、難しい熟語は避けました。また、訳注はリンク先の要約をしばしば含みます。


ここで取り上げるものはすべて重要な手法や概念である。それらは統計学に関連しており、よく知っておくべきにもかかわらずあまり知られていないものだ。それらに名前を与えることで、そのアイデアがもっと親しみやすいものになってほしいと思う。

  • ミスターP: マルチレベル(階層モデル)で回帰し、事後層別化(poststratification)する手法のこと。
  • 秘密兵器: ある統計モデルを複数の異なるデータセットに繰り返しあてはめて、すべての推定値を同時に表示すること。
  • スーパープロット: 交互作用があるモデルの推定値をプロットした折れ線グラフの一種。グループごとにあてはめた回帰直線を引く。また、その直線上の(X, Y)に点をプロットする。点の大きさ(面積)は、あるグループ内でXの値を持つサブグループの大きさを表す。
  • まず自分を疑え: 計算がうまくいかないとき、しばしばあなたのモデルに問題がある。*1
  • 代打が優秀な打者とは限らない: ただ一つのことを仕事にしている人は、その一つのことも常に得意とは限らない。
    • 訳注: 同僚は著作の誤植を多数指摘してくれるにもかかわらず、編集者は見落としがひどいというゲルマン先生の経験から。
  • 弱情報事前分布: 無情報事前分布を使いたいと思ったときに使うべきもの。
  • P値とU値: 両者は違うもの。
    • 訳注: ゲルマン先生の2003年の論文の中にU値について説明がある。伝統的な統計学ではデータを確率変数とみなし、P値は一様分布(Uniform)に従う。それはU値と呼ぶべきものだと主張している。一方でベイズ統計ではパラメータを確率変数とみなし、P値は事後確率から算出した何らかの確率となる。
  • 保守主義: 統計学においては、以前に使われたことがある手法を使いたいという欲望。
  • ジェニファーならどうする?: 応用統計学の問題で行き詰まったときに考えてみること。*2
    • 訳注: ジェニファー(Jennifer)はゲルマン先生と共著で通称ARMを書いた人。
  • 理論統計学者と応用統計学者の見分け方: 理論統計学者はデータにxを使い、応用統計学者はyを使う(xは説明変数のためにとっておく)。
  • 「片方にしか賭けない」の誤り: パスカルの賭け、宝くじなどなど。
    • 訳注(リンク先の要約): 生徒に「10億分の1の確率で負けて死ぬ賭けがあって、勝った場合にいくらもらえるならその賭けをやるか」と質問したところ、誰もやりたがらなかった。しかし、100円ケチって道路を横切るのと大して変わらない。宝くじも当たる方だけに気をとられず、毎回3000円以上購入して外し続けた場合も考えよ。つまり、このような「片方にしか賭けない」の誤りのポイントは、人々は問題の半分側しか見てないことと、トレードオフがあることを全く認識していないことだ。
  • 何でもアルファベット順にするな: アメリカの統計学者Howard Wainerの言葉で「Alabama First」という言葉がある。もっとよい並べ方があるにもかかわらず、アルファベット順に並べて図を描くという失敗に対する言葉。
    • 訳注: アメリカの州一覧をアルファベット順にするとAlabamaが先頭にくることから。*3
  • 47NEWS(よんななニュース)の誤り: すべての県(や国)を等しく扱ったり、より管轄の大きな場所により多くの人が住んでいることを忘れたりしてはいけない。もし、面積が同じくらいとはいえ神奈川県を佐賀県と同じように扱うと、神奈川県の何百万人の人たちを無視することになる。
    • 訳注: 日本版に置き換えた。47NEWSは47都道府県の各々のニュースをなるべく同等に扱うことから。*4
  • 二次の可用性バイアス: あなたが個人的に経験した相関を、集団における相関に一般化してしまうこと。
  • 「他は全て等しいとする」の誤り: 他は全て一定になっていなさそうな場合ですら、そう仮定してしまうこと。
  • 自動掃除機能つきエアコン: よいパッケージは自分自身のテストを含んでいるべき。*5
  • 混乱の分類: 行き詰ったときにやるべきこと。リンク先に例がある。統計の授業でTAに尋ねる前に以下のように分類せよ、とのこと。
    1. 統計に関する質問。しかし授業の前提知識に入っている場合: 統計の入門書を読め、TAに聞くな。
    2. 統計に関する質問。授業の一部に関係ある場合: 本を読め、友達に聞け、それからTAに聞け。
    3. 統計的には分かっているが、関数の名前が分からない場合: 「R standard deviation」みたいにググれ。もしくは自分で関数を書け。見つけられなかったら友達に聞け、それからTAに聞け。
    4. 関数の名前は分かっているが、どうやって使うか分からない場合: help(sd)のようにタイプしてヘルプを見よ、それから友達に聞け、それからTAに聞け。
    5. コードを書いたけどエラーが出る場合: デバッグせよ。printで画面に表示したり、コードをより小さなステップに分けたりせよ。
    6. コードを書いてエラーも出ないが、思っていたのと異なる挙動の場合: デバッグせよ。
  • 次元の祝い: より多くのデータがあることは良いこと。たとえその追加された情報が、「データ点」というより「次元(訳注:説明変数や特徴量のこと)」だとしても。
  • scaffolding: 関連するモデルと比較することで自分のモデルを理解すること。
    • 訳注: scaffoldingは「足場」。ほぼ同じ意味でRuby on RailsなどのWebフレームワークでも使われる。統計モデルにも「足場」があるという主張。
  • オッカム信者: 他人に過度に単純化されたモデルを使わせようとする癖や傾向のこと。イライラする。
  • ベイジアン: たとえそれが不適切でも、すべての問題に対してベイズ推定を使う統計学者のこと。私自身(訳注:ゲルマン先生)はベイジアンです。
  • 多重比較: もし適切に解析を実行しているなら、一般的に大した問題ではない。しかし、もし手を抜いて階層的な構造を階層的にモデリングしないと大きな問題になりうる。
  • モデルをあまりに真剣に受け止めるな: モデルをあまりに真剣に受け止めるのは、モデルを全く真剣に受け止めないのとまさに同じ。
    • 訳注: リンク先には「モデルの奴隷になるな、モデルと協力せよ」とコメントがある。
  • 神はあらゆる木のあらゆる葉に宿る: もし本当にすごいことをやろうと思うならば、小さな問題や自明な問題なんてありはしない。
  • リズムと意味はトレードオフ: 不必要な挿入語句を取るとデコボコになる。*6
    • 訳注(リンク先の要約): 人が理解しやすいように文章のリズムを重視すると、どうしても不必要な挿入語句を加える必要がある。
  • お話の時間: 数値がベッドに入ったら、お話が出てくる。
    • 訳注(リンク先の要約): 数値を用いた解析結果の説明は客観性や信頼性があるが、結果を踏まえた数値のない「お話」は信頼性が全くないことから。研究者は誰も持ってないような仮説を出すのが仕事なので、特に信頼性がない。
  • 苦しい時のベイズ頼み: 大きくて現実のタフな問題を扱う場合に、何らかの信頼性の問題で私(=ゲルマン先生)に意義を唱える人はない。*7
  • ピノキオの原則: 計算上の理由だけで作られたモデルでも独り歩きする可能性がある。
  • type M error: もし推定値が統計的に有意ならば、それはきっと効果の大きさ(magnitude of effects)を過大評価している。
    • 訳注: リンク先では、統計的に有意なことを優先して効果の大きさを過大評価するエラーを、type I/II errorになぞらえてtype M error (magnitude)と呼んでいる。
  • アローのもう一つの定理 (弱形式): どんな研究成果でも最大で5回までしか論文にできない。
  • アローのもう一つの定理 (強形式): あらゆる研究成果は5回まで論文にできる。
  • ラマヌジャンの原則: 表は粗いグラフだと思って読め。
    • 訳注: リンク先には表の数値の符号や桁数などをざっと見る話などがある。
  • 哲学のパラドックス: もし哲学を追放すると、ならず者だけが哲学をする。*8
    • 訳注: 内容の一貫性のため、ゲルマン先生は著作のBDAやARMから哲学の章を省いた。その結果、ならず者がベイズの哲学を語り、ミシガン大の経済学者が混乱した経験から。
  • 統計学はデフォルトの科学: (リンク先の要約)統計学の他の工学との違いとして、デフォルトの手順に対して特別愛着を持っていることが挙げられる。デフォルトには推定値や本やセッティングなどが含まれ、最近ではデフォルトの事前分布に注力している。デフォルトを選んでおきなさい。
  • 手法のおかげ問題: 素晴らしい統計コンサルタントや共同研究者の多くの有用な貢献は、彼ら/彼女らが使った手法や哲学のおかげだと過度に思われることが多い。
    • 訳注: 実際には彼ら/彼女ら自身の創造性が素晴らしい。リンク先にはルービンとエフロンとパールの話がある。
  • 目的が違えば見方も違う: グラフの中にはすでに知っていることを愉快に可視化してくれるものがある。あまりに面白く示されているので、すでに知っていることを再学習する喜びがある。また、新しい視点でグラフを眺め、いろいろな関連トピックについてより深く考えさせられることに気づいて衝撃を受ける。*9
    • 訳注: リンク先ではパッと見ではよくないInfovisの例があるが、そのグラフからも「通話のデータをたくさん持っている人が存在すること」などが分かる、とのこと。
  • 新入生の質問: 新入生がした質問というだけで、それが的外れの質問とは限らない。
  • 富士の樹海: 「なんかいいことないか漁り」や「pハッキング」ではなく、たとえ前もって研究の仮説を設定していたとしても、多重比較は問題になりうる。*10
  • 一方通行の誤り: どの方向にも転がる可能性がある変化に対し、一つの可能性だけを考えること。
  • 多元性のジレンマ: 自分の哲学がたくさんある選択肢のなかの一つでしかないことを認識する言葉。そして、(少なくとも取り組んでいる問題に対し)なぜ自分の哲学が他の選択肢よりも好きなのかを説明しつつも、自分のコントロールを超えた多数のことに左右されてこの哲学を大切にするに至ったと認識する言葉。*11
  • 実験というより霊験: 単なる証拠では殺せない仮説のこと。(社会学者Jeremy Freeseの言葉から引用)*12
    • 訳注: 統計はネガティブを証明することはできない。訳者が思いついた例は「水素水が効かないという証拠はない」。
  • 統計の化学療法: 主な結果に少し毒を入れて、有意であることが望ましくない結果のp値を0.05より大きくすること。(社会学者Jeremy Freeseの言葉から引用)
  • 何が分からないかを話せ: 聞きたいこと。
    • 訳注(リンク先の要約): ふつうに「分かっていることを話せ」にすると、「分かっていること」と「分からないこと」の境界を知ることができる。もし「何が分からないかを私に話せ」にすると、「分かっていること」と「分からないこと」の境界だけでなく、「分からないこと」と「『分からないことが分かってない』こと」の境界に関するヒントも得られる。情報が多いのは良いこと。
  • サラダのトング: 絵を描くのに使うな。(リンク先の要約)p値は粗いデータの要約であり、生データからp値になるときにたくさんの情報を失っている。論文に記載されたp値を使って科学をすることはサラダのトングを使って絵を描こうとするようなもの。
  • スケールダウン係数: 論文に記載された推定値をどれほどスケールダウンして考えるべきかを決める係数。
    • 訳注: 論文の結果は「盛っている」と考えるわけである。リンク先の例ではスケールダウン係数が1/2の場合(「42%」を「21%」と考える)を扱っている。
  • カンガルー: カンガルーが元気に飛び跳ねているときに、おなかの袋に入っている羽の重さを量るのに体重計を使うな。
    • 訳注: 効果量がすごく小さくて測定誤差がとても大きいような研究に対する揶揄。
  • マッハGoGoGoの原則: 科学的もしくは大衆文化の作品で最も面白いところは、表立った箇所ではなく、吟味されていない想定であることが時々ある。
    • 訳注: ゲルマン先生がマッハGoGoGoのアニメを見たときに一番面白かったところは、背景に日本の工業の光景が見られた、登場キャラの長いドライブのシーンだったという経験から。
  • 不確実区間(Uncertainty Interval): 信頼区間や信用区間の代わりに不確実区間と呼ぼう。
    • 訳注: リンク先には三つ理由が書いてあって、要約は次の通り。信頼区間は解釈しにくく、ベイズ流に解釈してしまいがちであること。信頼区間と予測区間の区別があいまいであること。信頼区間が大きいと信頼性が低くて、信頼区間が小さいと信頼性が高いというちぐはぐさ。
  • もし全てのデータを持っていたらどうする?: 統計学者ルービンの一つ目の質問。
  • 一切のデータを入手する前は何をしていた?: 統計学者ルービンの二つ目の質問。
  • 時間反転して考える: 有意差が出て論文になった発見が、後からより大規模できちんとしている確認実験で再現できなかった場合にどう考えるべきか。
    • 訳注(リンク先の要約): エイミー・カディは「力のポーズ」を取ると元気が出て成功の確率がアップすることを比較的少ないサンプル数で実験をし、有意差が出たとして論文を出版した。TEDでも同じ内容で話している。しかし後から、より大規模できちんとしているRanehillらの実験ではその結果は再現できなかった。カディは有意差あったんだよ!!とブチ切れる。ゲルマン先生は時間反転して考えてみようと提案する。先にRanehillらの実験で効果なしと判断され、あとから小規模できちんとしてないカディの実験で有意差ありと判断されたら、カディの実験を信じますか?と。ノイズの可能性が高いと思いますよね、と。
  • クラークの法則: 十分に馬鹿げた研究は詐欺と区別がつかない。*13
  • 要は結婚式であって決して結婚ではない: 科学論文の結果について肝に銘じておくこと。
    • 訳注(リンク先の要約): 科学論文において間違って有意差が出て論文になっても、それを訂正するプロセスは機能していない。それは科学論文は発見を促進するものであって、修正を扱うものではないからだ。つまるところ、科学論文の結果は華やかな結婚式であって、(その後の大変な)結婚という営みではないのだ。
  • 査読の問題: レビューしてるのは仲間だということ。
    • 訳注: リンク先では、査読者含めた全体が誤認していたら間違いが長続きするよ、と警告している。

ここに載せるのを忘れた言葉がたくさんあるのは知っている。私の記憶をリフレッシュさせてほしい。

P.S. いや、定義ゲームでStephen Sennと戦えるとは思ってないよ。

*1:元の用語はフォーク定理(The Folk Theorem)。数学の諸分野では、「証明をつけようと思えばつけられると誰もが思っているが、実際には誰一人としてその証明をつけたことがない定理」のことを一般にフォーク定理と呼ぶことがあることから(Wikipedia)。

*2:元の用語はWWJD。英語ではWhat Would Jesus Do?をWWJDと頻繁に略し、さらにもじってJesusの代わりに人名を入れることも多いため。

*3:元の用語はAlabama Firstでしたが、州になじみがない日本人を考えて変更しました。

*4:元の用語は「新聞紙USA Todayの誤謬」。新聞紙USA Todayは50州の各々のニュースを扱うことから。カルフォルニア州をモンタナ州デラウェア州と同じように扱う例を挙げている。ちなみに人口は カルフォルニア州 >> モンタナ州 = デラウェア州。面積はカルフォルニア州 = モンタナ州 >> デラウェア州 である。日本人にはなじみがないので県に置き換えた。

*5:元の用語はThe Self-Cleaning Ovenでしたが、日本にはそのようなオーブンが普及していないので、親しみやすさのため変更しました。

*6:元の用語は「駅馬車ビジネスで人が言ったように」。席から詰め物をとると馬車の乗り心地がガタガタになることから。

*7:There are no atheists in foxholes. ということわざがある。日本でいうところの「苦しいときの神頼み」。

*8:米国右翼のスローガン When guns are outlawed only outlaws will have guns.「銃の所持を禁止すれば、ならず者だけが所有する」から。

*9:元の用語はクリス・ロック効果。アメリカの俳優クリス・ロックの語録の一つ「我々みなが知っていることは真実だ」から。

*10:元の用語は八岐の園(やまたのその。英語ではThe Garden of Forking Paths)。八岐の園はアルゼンチンの小説家ホルヘ・ルイス・ボルヘスの短編のタイトル。日本では「伝奇集」に収録されている。その中に次の一節があり、混沌とした様子をうまく表現している。"I thought of a labyrinth of labyrinths, of one sinuous spreading labyrinth that would encompass the past and the future... I felt myself to be, for an unknown period of time, an abstract perceiver of the world." しかし、日本語としてやや親しみにくい。そこでイメージが似ており覚えやすい「富士の樹海」とした(実際には遊歩道を外れなければ安全な場所ですが)。なお、ゲルマン先生は「pハッキング」という言葉は意図やズルが含まれているのであまり好きでない。代わりに「The Garden of Forking Paths」が好き。

*11:政治学者ロバート・ダールの著作「多元的民主主義のジレンマ ― 自治 vs. 制御」から。

*12:元の用語はMore Vampirical Than Empirical. 直訳すると「実験による検証というよりもヴァンパイアのようだ」。元の用語のように韻を踏むために苦労して変えました。

*13:訳注:クラークは「幼年期の終わり」などで知られるSF作家。クラークの3つの法則というものがあって、特に3番目の「十分に発展したテクノロジーはマジックと区別がつかない」が頻繁にパロディ化されている。

「StanとRでベイズ統計モデリング」松浦健太郎 という本を書きました

僕が筆者なので、この記事は書評ではなく紹介になります。まずこの本はRのシリーズの一冊にもかかわらずStanという統計モデリングのためのプログラミング言語の方がメインです。このようなわがままを許してくれた、ゆるいふところの深い石田先生と共立出版には感謝しかありません。

StanとRでベイズ統計モデリング (Wonderful R)

StanとRでベイズ統計モデリング (Wonderful R)

目次と概要

共立出版のページを見てください。GitHubのリポジトリもあります。

前提とする知識

「はじめに」の部分で触れていますが、確率と統計の基本的な知識はある方、R(やPython)で簡単なデータ加工や作図が一通りできる方を想定しています。そのため、確率分布なんて聞いたことがない、プログラミングがはじめて、Rがはじめて、という方が読み進めるのは厳しいかもしれません。なお、Rの基本的な関数しか出てこないので、PyStanとmatplotlib(あるいはSeabornなど)でやるわっていうPythonユーザの方にも十分に読む価値があると思います。

Pythonユーザのための追記

この本を読んで習得できるもの

「統計モデリングの考え方」と「Stanの使い方」の二点です。

統計モデリングの考え方

基本的にデータ解析には「正解」がありません。検定の前提条件にせよ、統計モデルにせよ、機械学習のモデルにせよ、すべてのモデルは仮定にすぎないからです。しかし、ルール無用ではありません。得られた結果が有用であるため、統計モデリングにも沿うべき指針や考え方があります。統計モデリングは従来の検定ベースの統計と比べると、得意分野も考え方も大きく異なります。筆者は仕事がら普段は検定も使っていますが、「ある現象を理解したい・知識を獲得したい・予測したい」といったデータ解析の主目的については、検定では満足できない場合が多いです。その場合、統計モデリングがよい選択肢になります。この本では統計モデリングをきちんと習得できるように、考え方や手順といった正解がないものについても大胆に筆者の主張を書きました。

Stanの使い方

最近Stanを取り上げたデータ解析の本は増えてきています。僕が確認している範囲だけでも以下があります(刊行順)。

しかし、これらの多くは重回帰のような簡単な解析を数ページで紹介しているだけだったり、Stanの文法などは付録だったりしました。「Stanをしっかり学びたい。より美しく、より速く動くように書きたい。」という人にとって十分に満足できる本はこれまでなかったと言えます。しかし、本書はこのニーズにほぼ100%応えた、日本語で読めるはじめての本格的なStan解説書です。

このブログとの関係

いくつかの記事については本の後半の例題とオーバーラップがありますが、基本的には書き下ろしです。本では用語の説明や結果の解釈などの基礎から順番に説明しています。このブログは僕のメモを兼ねているのでやや難しい題材やStanコードが多いですが、本ではそんなことありません。

その他の特徴

例題からはじまる

なるべく具体的なイメージをもって分かりやすくなるように、多くの解説は例題データの解析からはじまります。

図が多い

統計モデリングを含むデータ解析は可視化と密接に関係しているので、図をふんだんに載せています。図と作図のRコードもGitHubにほぼすべてありますので、よろしければ見てください。ただし、作図は各自が好きなパッケージを使えばよいと思っているので作図のRコードの解説は割愛しました。すみません。

数式は難しくない

ベイズ統計の本では1ページまるまる難解な式変形という本も少なくないです。しかし、この本はソースコードとその解説が多めですが、数式は少なめです。式変形も理系の大学一二年生なら引っかかることなく追うことができるでしょう。

Stanの最新版に対応していく

書籍は2.11対応ですが現時点の2.15にもほぼ対応しています。今後もバージョンアップしたら、GitHub上でどの記述が古くなったか書きます。またソースコード自体もアップデートする予定です。

他人からの書評や感想 (追記)

献本勢が多いので褒める言葉は話半分でよいと思いますが、他人から見てよかった章の紹介などは参考になると思います。

この他にも色々コメントいただいております。ありがとうございます。

読書会・勉強会

読書会が開かれることになりました。大変ありがたいです。

なお、愛称は「アヒル本」になった模様です(表紙のブロックはアヒルなのです)。

各章の紹介

以下では実物を手に取って見ることができない人のために、どんなことが書かれているか簡単に紹介したいと思います。

はじめに

本書のあらすじが載っています。

f:id:StatModeling:20201106183153p:plain

1~3章は理論編です。数式が多いわけではなく用語の確認の意味合いが強いです。4~5章はStanの入門編です。6章以降は発展編です。6・8・11・12章が本流で、モデルのレパートリーを増やす章になっています。対して、7・9・10章はモデルを改善する章となっています。特に発展編では読者はStanの強力さを実感できると思います。

1章 統計モデリングとStanの概要

「統計モデリングとは何なのか?目的は?メリットは?」という点について筆者なりの考えを述べました。またStanなどの確率的プログラミング言語を使うメリットを簡潔に説明しています。一部抜粋します。

確率的プログラミング言語とは「様々な確率分布の関数や尤度の計算に特化した関数が豊富に用意されており、確率モデルをデータにあてはめることを主な目的としたプログラミング言語」である。ユーザーはモデルをプログラミングコードで記述し、データを渡すだけでよい。すると確率的プログラミング言語の方でほぼ自動的にパラメータの値を推定してくれる。このようにモデルの記述と難しい推定計算を分離することによって、モデルの可読性が上がり、バグの混入が激減し、解析者はモデルの試行錯誤に専念できるようになる。特に多数のモデルを試行錯誤する状況で確率的プログラミング言語は真価を発揮するのである。

2章 ベイズ推定の復習

確率分布や「 y \sim Poisson(\lambda)」などの基本的な用語や記法の確認からはじまります。そのあとでベイズ統計とMCMCに関する用語を簡潔に説明しました。扱った用語は以下の通りです。

3章 統計モデリングをはじめる前に

まず一般にデータ解析に必要となる前準備について説明しています。そのあとで統計モデリングの手順を筆者なりに以下のように定型化しました。

  • 解析の目的
  • データの分布の確認
  • カニズムの想像
  • モデル式の記述
  • Rでシミュレーション
  • Stanで実装
  • 推定結果の解釈
  • 図によるモデルのチェック

本書の以降の例題はなるべくこの手順に沿って解析をすすめています。もちろん、現実のデータ解析はこの手順に尽きているわけではなく、あくまでも最低限踏むべきステップの目安です。また、事前知識の役割や、誤解の多いモデルの「正しさ」についても少し触れました。

4章 StanとRStanをはじめよう

インストール方法、基本的な文法、targetlp__を説明した後で、じっくり単回帰の問題を扱います。この章以降ではStanコード・Rコードとそれらの説明という部分が多くなります。推定結果の見方、収束の判断、trace plotの見方、{ggmcmc}パッケージの使い方、MCMC設定の変更、MCMCサンプルの使い方を説明しています。

5章 基本的な回帰とモデルのチェック

重回帰・二項ロジスティック回帰・ロジスティック回帰・ポアソン回帰を扱います。また図によるモデルのチェック方法を数通り紹介しています。使用した図をいくつか載せておきます。詳しくは本を読んでください。

f:id:StatModeling:20201106183157p:plain

f:id:StatModeling:20201106183201p:plain

f:id:StatModeling:20201106183206p:plain

6章 統計モデリングの視点から確率分布の紹介

確率分布の軽い紹介はどんな本にも載っていて、常々冗長だ退屈だと感じていました。しかし、統計モデリングにおいて個々の確率分布は必要不可欠なパーツです。そこで、従来の本にはないような「統計モデリングの視点から」の部分になるべく注力して16個の確率分布を紹介しました。

7章 回帰分析の悩みどころ

交互作用、対数をとるか否か、非線形の関係、打ち切り、外れ値など、ふつうの統計の教科書にはあまり載っていませんが、実際のデータ解析では必ずといっていいほど直面する悩みどころを取り上げました。

8章 階層モデル

階層モデルはグループ差や個人差をうまく扱うための一手法です。ゆっくり導入をした後で応用方法になじめるように、複数の階層を持つ場合や、非線形モデルやロジスティック回帰の階層モデルを取り上げました。

9章 一歩進んだ文法

Stanをより美しく、より速く動くように必要な一歩進んだ文法を解説しました。Stanで用意されている型(かた)の説明やベクトル化、行列演算、パラメータの制約、欠測値がある場合などを扱っています。

10章 収束しない場合の対処法

統計モデリングの最大の難所は、MCMCが収束しないことだと言っても過言ではありません。しかしながら、その対策を系統的に扱った書籍や情報はあまりありません。ここではその対策を大きく4つの節に分けて説明しています。個人的な経験からは、10.1節の識別性の問題(多重共線性を含む)と10.2節の弱情報事前分布で収束しない場合の8割は解決できそうです。

11章 離散値をとるパラメータを使う

Stanの最大の弱点は離散値をとるパラメータが直接的に使えないことです。この章では、log_sum_exp関数と周辺化消去(marginalizing out, summing out)で解決する方法を説明します。応用例として、混合正規分布、ゼロ過剰ポアソン分布、Latent Dirichlet Allocationを扱います。変分ベイズ法の一実装であるADVIも使ってみます。

12章 時間や空間を扱うモデル

時系列データを解析するにあたり、応用範囲が広く、解釈がしやすく、拡張性が高い「状態空間モデル」を取り上げました。特に日次の売り上げデータのように、時刻が離散的で等間隔なデータの場合に使いやすいモデルです。季節調整項や変化点検出なども扱います。後半では、時間構造と空間構造の等価性を説明し、マルコフ場モデル(CARモデルとほぼ同じもの)を使った例題を扱っています。

データ解析で割安mobile PCを探す

この記事の続編です。一緒にやろうという人がなかなか現れないので、一人でたたき台を作りました。

目的

目的は機能の割にお得な割安mobile PCを探すことです。mobile PCの厳密な定義はないのですが、ここではディスプレイが12型~14型で重さが1kg前後としました。また、各社の最新モデルだけを対象としました。

データの取得方法

メーカーを決める→本気で買うつもりで公式サイトと価格comを比較して安い方にする→人力スクレイピング です。現時点では公式サイトも多く、スクレイピングのコードを書いても労力のもとが取れないので10時間ほどかけて人力スクレイピングして集めました。

データの内容

8社・10モデルで44商品です。おすすめモデルを中心にしました。生データを置いておきます(これこれ)。

次の統計モデリングで使用する、PCの機能を表す説明変数は18個考慮しました。CPU・メモリ・SSD・PCIe・ディスプレイのサイズ/解像度/光沢非光沢・重さ・バッテリ持続時間・キーボードバックライト・LANポート・SIMポート・USB3.0の数・USB3.1の数・各種出力などです。前処理はそこそこ必要で、例えばCPUはこのサイトベンチマークスコアの値に変換して使いました。また、キーボードの打ちやすさ、画面の見やすさ、公称でないバッテリー持続時間などはこちらのサイトから取得して、一部を説明変数として使いました。目的変数は税込み価格です。

簡単な可視化は記事の最後にある発表資料を見てください。

統計モデル

切片・説明変数の項・ブランド(会社名の影響)の項からなるシンプルな回帰です。ブランドは正規分布に従うとし、その標準偏差は弱情報事前分布を設定し、データから推定しました(階層モデル)。例えば「Think Padのキーボードが打ちやすい」という特徴があっても、今回は会社の影響と切り分けできないのでブランドの影響に組み込まれることになります。

計算方法

StanとRで計算しました。記事の最後の方にコードを載せておきます。計算時間はSurface Pro 3で1chainあたり約20秒ほどです。

結果

説明変数の影響

f:id:StatModeling:20201106182810p:plain

黒い点が推定した事後分布(からのMCMCサンプル)の中央値で、横に伸びている線が95%ベイズ信頼区間です。

影響があると断言できそうなのは、CPUとメモリ容量とSSD容量ぐらいでした。重さは軽い方が高い傾向はあるのですが、95%区間がゼロをまたいでおり、そうも断言できない結果となりました。

ブランドの影響

f:id:StatModeling:20201106182814p:plain

凡例は「説明変数の影響」と同じです。大差なしという結果です。あると思っていたのでやや残念です。

実際の価格 vs. 「潜在的な価値」

f:id:StatModeling:20201106182819p:plain

凡例は「説明変数の影響」と同じです。直線y=xの上側が割安な商品、直線y=xの下側が割高な商品です。ほとんどの商品が直線y=xの近くにあるので、目立つ割安・割高な商品はないと言えます。市場原理はなかなか強力のようです。どれも値段相応の価値があると言えるので、好きなもん買えばいいと思います。

しかしよく見ると、富士通の商品はMCMCサンプルの中央値がすべて割安側にあり、また(性能に関係ない)ブランド効果も比較的低いので、会社として見ると割安な商品を出す傾向にあると思います。たしかに公式サイトの訳あり商品はなんかいつも安い気がする。

割引%offのBest3・Worst3

目立った割安・割高な商品はないですが、例えばMCMCサンプルの中央値ベースで割引%offのBest3・Worst3なんかも求めることができます。

best1best2best3worst1worst2worst3
price103058156800109938219427139655167184
潜在的な価値12.2万円17.40万円12.09万円18.76万円12.33万円15.10万円
%off15.59.99.1-16.9-13.2-10.7
search_date201607172016071720160717201607172016071720160717
search_sitekakakukakakukakakukakakuofficialofficial
urlhttp://kakaku.com/item/K0000872152/http://kakaku.com/item/K0000855827/http://kakaku.com/item/K0000752290/http://kakaku.com/item/K0000855828/http://shopap.lenovo.com/jp/notebooks/thinkpad/x-series/x1-carbon/#tab-customizehttp://www.apple.com/jp/shop/buy-mac/macbook-air
company_nameApplePanasonicApplePanasonicLenovoApple
model_nameMacBookAirLet'snoteSZ5MacBookAirLet'snoteSZ5ThinkPadX1CarbonMacBookAir
CPUCorei5-5250UCorei5-6300UCorei5-5250UCorei5-6300UCorei5-6200UCorei7-5650U
memory844848
SSD128128256256128256
PCIe101001
display_size13.312.113.312.11413.3
display_res_width144019201440192019201440
display_res_height900120090012001080900
display_touch000000
display_glare101001
display_vote000010
keyboard_light101011
keyboard_vote000010
battery_size54NA54NA5254
battery_time11211.512139.812
battery_time2NANANANA5.62NA
weight1.350.8751.350.8491.181.35
DVD000000
SIM010000
LAN_port010100
USB30333333
USB31000000
output_HDMI111111
output_VGA010100
SDcard111111
MSoffice000000

best1best3Mac Book Airのローエンドな商品です。これらは少々古い割に人気があるので、取り扱っている店が多く、価格comで激しい競争にさらされてお買得になっていると思われます。一方で、Appleの公式サイトで選んだハイエンドな商品はworst3になっています。Appleの公式サイトで買うのは割高の傾向があると言えるでしょう。

best2worst1はLet's note SZ5です。ともに価格comで扱っている店も十分にあるのにこの差があるところが面白いです。1商品にしぼって価格comを信じるのではなく、データ解析の関係者ならメタな視点でお買い得な商品を選びたいものです(まあ統計モデルもお買い得かも仮説にすぎないのですが)。

Future work

価格comのWeb APIAmazon APIを使って、商品を最新モデルに限らず、さらに扱っている店舗の影響や価格推移などのデータを集めるのは考えられます。ただし、取り扱っている店の少なさ、限定モデルかどうか、などをチェックしてフィルターする必要がありそうです。しかし、データが増えれば、「ある会社の製品は早く値段が落ちる」なんてことも分かりそうな気がします。データを定期的に取得するのが面倒なんだよなぁ。

ソースコード

Stanコードは以下です。

data {
  int N;
  int D;
  int K;
  matrix[N,D] X;
  vector[N] Y;
  int N2K[N];
}

parameters {
  vector[D] beta;
  vector[K] brand;
  real<lower=0> s_Y;
  real<lower=0> s_brand;
}

transformed parameters {
  vector[N] mu;
  vector[N] mu_plus_brand;
  mu = X*beta;
  mu_plus_brand = mu + brand[N2K];
}

model {
  beta[1] ~ student_t(4, 0, 3);
  beta[2:(D-1)] ~ student_t(4, 0, 1);
  s_brand ~ student_t(4, 0, 1);
  brand ~ normal(0, s_brand);
  Y ~ normal(mu_plus_brand, s_Y);
}

実行するRコードは以下です。

library(rstan)

d <- read.csv(file='input/data.csv', stringsAsFactors=FALSE)
d_cpu <- read.csv(file='input/cpu_info.csv', skip=1, stringsAsFactors=FALSE)
rownames(d_cpu) <- d_cpu$CPU
company_names <- c('Lenovo', 'Dell', 'NEC', 'Panasonic', 'Fujitsu', 'VAIO', 'HP', 'Apple')
d$company_name <- factor(d$company_name, levels=company_names)
d$cpubenchmark <- d_cpu[d$CPU, ]$cpubenchmark/4000
d$price <- d$price/100000
d$display_res <- (d$display_res_width * d$display_res_height)/1920/1080
d$battery_time1 <- d$battery_time1/20
d$memory <- d$memory/16
d$SSD <- d$SSD/512
d$ports <- d$LAN_port

usb_cvt <- c('0'=0, '1'=0.5, '2'=0.8, '3'=1)
d$USB30_val <- usb_cvt[as.character(d$USB30)]
d$USB31_val <- usb_cvt[as.character(d$USB31)]

Y <- d$price
gr <- d$company_name
use_cols <- c('cpubenchmark', 'memory', 'SSD', 'PCIe', 'display_size', 'display_res', 'display_touch', 'display_glare', 'keyboard_light', 'battery_time1', 'weight', 'DVD', 'SIM', 'ports', 'USB30_val', 'USB31_val', 'output_HDMI', 'MSoffice')
X <- data.frame(1, d[ , use_cols])
data <- list(N=nrow(X), D=ncol(X), K=nlevels(gr), X=X, Y=Y, N2K=as.numeric(gr))

stanmodel <- stan_model(file='model/model.stan')
fit <- sampling(stanmodel, data=data, seed=1)

発表資料

9/7にYahoo!でこの内容でLTしました。資料は以下です。