8月は夏休みということで、学会発表の予定はなく、その代わりに読書をしていた。学会発表は自分の頭から知識を出力することになる一方、読書は自分の頭に知識を入力することになる。

 

東大医学部を卒業した西内啓氏が執筆した『統計学が最強の学問である』、ダイヤモンド社(2013)という書籍が去年か一昨年頃にベストセラーになったので、遅ればせながら読んでみた。

 

著者は、もともとは生物統計、医療統計が専門であるが、やはり生物統計、医療統計に関する解説は秀逸である。現代統計学を創設したフィッシャーの古典的名著『実験計画法』(1935)の概略が、平易な文章で分かりやすく説明されている。フィッシャーはサンプルをランダム化して比較実験を行い、因果関係を確率で表現する手法を確立した。

 

生物統計、医療統計では、二つのグループを比べるときに統計学が応用されている。例えば、薬を投与したグループとプラセボを投与したグループを比較して、統計的に優位な差があるか否か調査する。二つのグループに分けるときに、サンプルをランダムに選択するのがポイントとなる。

 

統計学はマーケティングなどのビジネスに応用できるのだが、ビジネス応用も分かりやすく説明されている。しかし、マーケティングツールとしてアンケートしたとき、5段階で評価したアンケート結果を2値に簡略化して処理する手法を紹介していたが、これはちょっとね。

 

また、本書は、ビッグデータ時代ということで、サンプル数が膨大になる風潮に疑問を呈している。たしかに、ある種の統計では、ここまで膨大なサンプル数は不要なのだが、データマイニングを通じて変数間の依存関係を発見するときには、膨大なサンプル数により誤差を減らすことが必須になる場合もある。

 

統計学は、人工知能の機械学習、自然言語処理にも応用されているのだが、このあたりは著者の専門から離れていることもあり、表面的な通りいっぺんの紹介に留まり、若干、もの足りない。

 

統計学は数学の一分野という面もあるのだが、数式などに踏み込むといくらでも難しくなる。本書は数式などで統計を説明していないので、分かりやすい。