こんばんは。

学生の頃は経済系の大学で、統計学の講義は何回か受けました。よくわからなくて何に使うのか良く分からない数式を解き、その結果が何を意味するのかよくわからず卒業してしまいました。

 

あれから数年、本屋をぶらついているとおもしろい本を見つけました。

西内 啓 著 「統計学が最強の学問である」

この本によると、統計学はセクシーな学問のようです。
少し内容を書いていきます。
 

第一章 なぜ、統計学が最強の学問なのか

統計学を制する者が世界を制する。
統計学は21世紀に生きる人々にとって必須スキルとなってきており、最強の武器になる可能性も秘めている。統計学を制する者が世界を制する。
何故統計学が最強の学問になり得るかというと、どんな分野の議論においてもデータを集めて分析することで最善の答えを出すことができるからだ。疫学(原因不明の疫病を防止するための学問)でも大きく活躍した。
統計リテラシーは、世界トップレベルの学者が長年の研究の結果明らかにした真実にもアクセスが可能である。
 
何故今、統計学が花開いたのか

以前の統計学は膨大なデータを人力で計算、分析を行っていた為、分析結果を出すにはかなりの時間がかかっていた。しかしIT技術が進歩し、計算ツールが登場すると効率は飛躍的に上がり、「パワフルな学問」に生まれ変わったのである。

学生時代に統計学がよくわからなかったのは、「紙とペンばかりの統計学」を教育されたために、時代の最前線のITによる統計学を体験できなかったためだろう。

 
これから10年で最もセクシーな職業

Googleのハル・ヴァリアン博士は2009年1月とある論文誌にてこう語った。

「私はこれからの10年で最もセクシーな職業は統計家だろうと言い続けているんだ。」

あらゆる事象の最善を知りたければ、周りに眠るデータを調査し、解析すれば健康になることも懸命になることも裕福になることも可能である。

 

第二章 サンプリングが情報コストを激減させる

全数調査 VS サンプリング調査
対処しきれない膨大な量のデータが存在する際、適切なサンプリング調査さえすれば必要な情報は得られるため、コストは全数調査よりも少なくなる(無論、全数調査の精度には劣るが)。問題はその低下した精度が結果にどの程度影響するかだ。
 
まずは正しい判断に必要な最小十分なデータを
解析はそれ自体に価値があるのではなく、「それを活かして何を行い、どれだけの価値を得られるのか」が重要である。解析する上で特殊なツールやアルゴリズムを用いる場合もある為、最終的に全データを対象とした解析が必要になるとしても、まず仮説の目星は必要だ。データの概観を掴むだけならまず数千~1万件ほどのデータをいじってみれば良いし、Excelでも十分にできる仕事である。
 

第三章 誤差と因果関係が統計学のキモである
 

データをビジネスに使うための「3つの問い」
データ分析を用いて具体的な行動を引き出すためには次の3つの問いに対して答えを出さなければならない。

①何かの要因が変化すれば利益は向上するのか?
②そうした変化を起こすのような行動は実際には可能なのか?
③変化を起こす行動が可能だとしてそのコストは利益を上回るのか?

誰かに依頼しようとしている分析が、そもそも①~③の質問に答えられないものであれば「なんとなくわかった気になる」という以上の価値はない。

「カイ二乗検定」と「p値」
ある集計表について、「意味のある偏なのか」、「誤差でもこれくらいの差は生じるのか」といったことを確かめる解析方法で、A/Bテストの解としてカイ二乗検定というものがある。実際には何の差もないのに誤差や偶然によってたまたまデータの差(正確にはそれ以上の極端な差を含む)が生じる確率を求めるものである。この確率をp値といい、このp値が小さければ(慣習的には5%以下)結果は偶然得られたとは考えにくいとなるわけである。
誤差を理解し、誤差を考慮した上でも意味がある結果と言えるかどうかという考えを持つことが必要である。

「因果関係の向き」という大問題
この問題を解決するために大きく二つの方法がある。

①「関連しそうな案件」を考えうる限り継続的に追跡調査し、統計学的な手法を用いて、少なくとも測定された条件については「フェアな比較」を行う
②解析ではなくそもそものデータの取り方の時点で「フェアに条件を揃える」

p値が5%以下であってもこの問題を解決しない限り仮説が実証されることはない。

 

第四章 ランダム化という最大の武器

最大の武器になる要因は、「人間の制御しうる何物についても、その要因を分析できるから」ということである。
 
統計学において「誤差」へのアプローチは3つある。
①実際のデータをまったく使わず、ただ仮説やこういう事例がありましたという話をもとにして理論モデルを組み立てる方法
②見かけ上、「100回中100回成功した」という状態を示すために、うまくいった事例だけを結果として報告する方法
③ランダム化を用いて因果関係を「確率的に」表現しようとする方法
 
ミルクが先か、紅茶が先か
世界初のランダム化比較実験はイギリスでの英国紳士と貴婦人たちのティータイムでのこと。
「飲んだミルクティが紅茶が先か、牛乳が先か当てる事ができる」と発言したことがきっかけである。
この命題に対し、「紅茶が先のミルクティ」と「牛乳が先のミルクティ」をランダムに飲ませることにより、正解した確率によりこの命題を実証させたのである。
実際の統計学においても、全数調査をを行うより、部分的にランダム化して行う方がコストも安く、より確実なデータが採れるという訳である。
 
ランダム化の3つの壁
協力な武器である「ランダム化」だが3つの限界が存在する。
①「現実」の壁
ランダム化が適用できるのは複数回検証ができるものであり、「一回きり」「数回しかできない」というようなできないことには取り扱うことができない。
②「理論」の壁
倫理的ガイドラインに触れるものは取り扱うことが出来ない。
「ランダム化により人為的にもたらされる、どれか一つまたはすべての介入が明らかに有害である場合」
「仮にすべてが有害でなくても、明らかに不公平なレベルでものすごくいいものとそれほどでもないものが存在していると事前にわかっているもの」
③「感情」の壁
「運次第で自分の運命が左右されるのが嫌だ」と実験に参加する人が思うことを止めることはできない為
 

第五章 ランダム化ができない場合どうするか

ランダム化比較実験が難しい状況であるならば、比較的低予算でスピーディーにデータが収集できる疫学的手法を用いることが現実的には有用である。
 
回帰分析
データの取り方を工夫しなくても、より高度な手法をもちいれば可能な限り条件を揃えた「フェアな比較」が可能になる。データ間の関係性を記述する、あるいは一方のデータから他方のデータを予測する数式を推定するのが回帰分析という考え方である。
 
重回帰分析とロジスティック回帰
重回帰分析は、説明変数(予測したい結果に影響する要因が複数ある状況へ拡張された回帰分析で、「フェアな比較」を行う上で重要な役割を果たす統計解析手法である。
ロジスティック回帰とは、もともと0か1という二個の結果変数を変換し、連続的な変数として扱うことで重回帰分析を行えるようにした手法である。ロジスティック回帰では、オッズ比(約何倍そうなりやすいか)で示すことさえ知っていれば結果の理解には問題ない。
 
回帰分析が読めれば「いい加減な言説」が駆逐できる
なにか「いいかげんな言説」に疑問を持った際は、その疑問をもったトピックと回帰分析という単語でGoogle検索をしてみるだけでも「何の要因が関連しているのか・関連していないのか」という結果を探すことはできるはずだ。