fact beats dreams

「理念なき行動は凶器、行動なき理念は無価値」だってさ

【読後メモ】統計学が最強の学問である(再読)①

6

統計学を制する者が世界を制する

データ分析に関わったある小売企業では、これまで漫然と送っていたDMについて「どういった顧客には送らないか」といった選択を最適化することによって売上をほんの6%ほど上げるやり方がわかった。1000億円ほどの売上のほんの6%だから、見込まれる売上の増加はほんの60億円ほどだ。

どんな分野の議論においても、データを集めて分析することで最速で最善の答えを出すことができる。

現代の医療で最も重要な考え方としてEBM(evidence-based medicine)、日本語にすると「科学的根拠に基づく医療」というものがある。この科学的根拠のうち最も重視されるものの1つが、妥当な方法によって得られた統計データとその分析結果というわけである。

「心臓病を発症するか否か」のような二値の変数と多様な調査項目の関連性を見るといった解析には、ロジスティック回帰という分析方法が一般的に用いられる。

 Microsoft Jobs Blog に2010年8月23日付けでポストされた記事の中で、彼らはテクノロジー分野で今後最もアツい3つの専門性として以下を挙げた。

 さらに、Googleのチーフ・エコノミストであるハル・ヴァリアン博士は、2009年1月にマッキンゼー社の発行する論文誌においてこう語った。

 私はこれからの10年で最もセクシーな職業は統計家だろうって言い続けてるんだ。  I keep saying the sexy job in the next ten years will be statisticians.

 かつての人類は、正しい(と思われる)答えを知るためには神の啓示にすがるしかなかったし、そうでなくなった後も権威ある人間の見識に従うしかない時代が長年続いた。  だが今は違う。最善の答えはすでにみなさんの周りのデータの中に眠っている。そこにない答えを知りたければ必要なデータを生むための調査を行うこともできる。統計学という最強の学問の力の一端を手にしさえすれば、健康になることも賢明になることも裕福になることもずいぶん簡単になる。

サンプリングが情報コストを激減させる

47 対処しきれない量のデータが存在する際に、適切なサンプリングさえすれば、必要な情報を得るためのコストが激減するのは80年前だろうが現代だろうが本質的には変わらない。

50

誤差を計算する方法

f:id:fbeatsd:20170506134153j:plain

 たとえば10万人の顧客のデータからその男女別割合を調べた結果、顧客に占める女性の割合が70%だったと仮定しよう。その標準誤差は、何人をサンプリングすればどの程度になるのか、を調べた結果を示すと図表のグラフのようになる。  サンプル数が100名分しかなければその標準誤差は4.6%にもなり、得られた「顧客に占める女性の割合が70%」という結果が実際には「女性の割合が61%~79%と考えてほぼ間違いない」という解釈になってしまう。しかし、1000名いれば標準誤差は1.4%となり「女性の割合が67%~73%と考えてほぼ間違いない」、8000名を超えて標準誤差が0.5%となると「女性の割合が69%~71%と考えてほぼ間違いない」ということになる。

f:id:fbeatsd:20170506134313j:plain

まずは、正しい判断に必要な最小十分のデータを