![]() |
統計学をまる裸にする データはもう怖くない
Amazon |
データサイエンスの発達でマスデータを個人レベルで処理することが可能になって以来,統計学が世のトレンドとなっている。
そんなこんなで入門書も沢山溢れていて,どこから手をつければよいのかわからない,って時にとりあえず乱読をしてみたけれど,統計学の考え方を学ぶ読み物としてはこれが一番面白かったです。
なぜ,たかだか100人程度の世論調査で「世論」がわかるの?とか,少ないサンプルで母集団を代表する事ができるのはなぜか,ということを殆ど数式を使わずにわかりやすく説明してくれます。
内容の詳しいガイドはそのうちやるとして,印象に残ったのは,月並みな表現ですが,統計学の万能さを盲信してはいけないってことです。
例えば,①インプットデータがクソならどんなに精緻な手法を使ってもそこから得られるものはないってことや,②因果関係と相関関係を混同してはいけないとか,③統計学はあくまで確率を示すに過ぎないものである,とか
①については,AIの限界ということが出来ますね。将棋や囲碁のような完全情報のゲームであれば,譜面データを与えれば与えるほどに,AIは学習することができる。でも,ルールがFixされておらず,かつ複数プレイヤー,複数の因子により事象が動的に決定していくような現実世界において,全てのファクターをインプットデータとして用意することができるのか?多分できないね。これはフレームワーク問題というらしいです。
②については,統計学,計量経済学の分野ではよく言われていることですが,「擬似相関」のレトリックに騙されてはいけないよ,ってことですね。
「これまでに死んだ人はすべて水を飲んでいる」→水を飲んだら死ぬ とか,
「テレビが家にたくさんあるほど裕福な家庭は,教育にもお金をかけることができるから,結果的に平均的に子が高学歴になる傾向にある」→テレビがたくさんある家の子は学歴が高い
とか,例としては敢えてバカバカしいものを示してますが,こんなナンセンスな仮説にだまされないようにしなきゃですね!
③については,99%の確率で間違いを侵さない「VAT」が暴走して,リーマン・ショックが起きたと解釈もできるわけで,99%正しくても,あくまで確率の問題なんですね。
まさに現代に生きる社会人に必要な,統計リテラシーを楽しく学ぶことが出来ます。
M
