今日は以前から気になっていた一冊。
統計学が最強の学問である/ダイヤモンド社

¥1,728
Amazon.co.jp
「ビッグデータ」とか「データサイエンティスト」とかそんな言葉をビジネス誌でも聞きますが、知見を広げたいなと手に取った一冊です。
また、本書はずっとベストセラーにあるので、買うか迷っている方の一助に役立てばと。
どんな分野の議論においても、データを集めて最善の答えを出せるのが統計学
史上はじめて統計学的アプローチで、万単位の命を救うプロジェクトは、19世紀のロンドンで行われました。
当時、原因不明の「コレラ」という疫病が流行していました。ロンドンは産業革命の真っ最中で、優秀は医者も官僚もいたのですが、決めてとなる対処法がありません。
そこで利用されたのが、統計学とのことです。
疫学の父といわれるジョン・スノウという外科医が行ったのは以下の方法でした。
①:コレラでなくなった人の家を訪れ、周囲を観察する
②:同じような状況下でコレラになった人となっていない人の違いを比べる
③:仮説が得られたら大規模にデータを集め、コレラの発症に関係しそうな
「違い」についてどの程度確からしいか調べる
で、導かれたのは「水道会社Aを使う家は水道会社Bを使う家の8.5倍死亡者が多い」
という結果でした。当時のロンドン政府は根拠のない彼の案を実行しませんでしたが、
彼の案を信じ水道会社Aを使うのをやめた町の多くがコレラから救われたといわれています。
また、スノウの発表から30年後、コレラ菌は水中に生息し、飲み水を通じて感染することが
わかりました。水道会社Aは多くの排泄物が廃棄された水流だったのです。
統計学のアプローチの特徴は、必ずしも原因が解明されていない状態でも、事実関係から
関係のありそうな因子を抽出できることにあるんですね。
IT化により、統計学が使えるツールに!
統計学は1960年頃、既に確立されていたそうです。
でもなぜ近年もてはやされているのか?
それはITだといいます。多くの企業でITが導入され、
商品の仕入や在庫・販売までほとんどの業務プロセスがすべて電子化され、
製造のための機械の動作やWebサイトのアクセスなどもすべてログに残るように
なりました。確かに。
同時に、演算力の圧倒的な進歩により、なんでもかんでも計算できるようになり、
上記で蓄積されたデータを経営に活用しよう(ベンダーから見ると、
蓄積データを活用してもらおう)という流れが生まれてきました。
書店にいくと「データサイエンティスト」という本が結構ありますが、
ITを駆使して統計的なアプローチで分析できるニーズが増えているんですね。
イケてる統計解析を行うには、何に気を付ければいいんだろう??
本書では、データを分析結果をビジネスに使うには、
以下の3つの問いが必要だと説きます。
その3つが揃っていなければ、具体的な提案も何もない、単なる解析だと。
①:何かの要因が変化すれば利益が向上するのだろうか?
②:そうした変化を起こすような行動は実際に可能なのか?
③:変化を起こすような行動が可能として、その利益はコストを上回るのか?
分析が仕事ではなく、利益を獲得することが仕事だ、ということですね!
統計学の基本『回帰分析』
本書には、基本的な統計学の基本に関しても解説されています。
例えば「回帰分析」。
実は、私も大学1年で勉強しました。
(恥ずかしながらほとんどその後全くといって生かされていませんが)
私は「計測制御専攻」とかなりマニアックな名前の学科だったのですが、
1年生1回目の実験が、『消しゴムの厚さを100回計測し、記録すること』
それで、100回の計測結果(当然誤差あり)をグラフにプロットし、
その値が統計学上の計算で求められる結果とどのくらい近しいかを実験しました。
話を戻しますと、上記ほど具体的ではないものの、
データの並びに法則性がある、ということをどのように表現するか?
について「分散」「誤差」「信頼区間」という言葉の説明とともに
簡単に解説されています。
データの分析に関わる人は、一度目を通しても損はないポータル的な一冊
本書は、ざっくりした統計学の考え方や、基礎となる知識(上記の回帰分析など)について
軽く触れられています。サンプリングデータを使った分析方法に関わる方は、知識の入り口として読んでおいても悪くないでしょう。
基礎学問的な話だけでなく、最近ソーシャルメディアで流行っている『形態素解析(文章を分節で分解しマイニングする技術)』などの事例も記載されています。
ただし、実務に踏み込んだより深い理解には、また別の資料や勉強が必要です。
私は、基本的に部屋も狭いので書籍は読んだらすぐにブックオフに出してしまう派なのですが、
しばらく本棚に置いておこうと思った一冊でした!