先日、久しぶりに講演会に行きましたので、そのご紹介をします。
放送大学、垂水共之先生の「ビッグデータ時代の統計学」というものです。
統計学は、最強の学問と言われています。
理由は、どんな分野にでも応用できるし、得られたデータは否定しようのない根拠となるからです。
統計を使って最近もっとも成功した例としては、EBM(根拠に基づく医療)が挙げられます。
私は腰痛持ちなので、以前、ぎっくり腰について色々調べていました。
すると、昔は
「ぎっくり腰は痛みが引くまで出来るだけ安静にしておきなさい」
と言われていたのが、現在では、
「少しでも動けるようになったら、出来るだけいつもの生活をしよう」
と、正反対の対応をするようになっていました。
これは、大量の臨床例の統計から、そのような結果が出たため変わったようです。
腰痛は精神的な面が強く、長い間寝込んでいたら自分の病状を過剰に重く評価するために治りにくくなる、とされています。
統計を取るまでは、かえって病状を重くするような対処が勧められていたということが分かった訳です。
余談ながら、この話を私が知った後でも「ぎっくり腰は痛みが引くまで出来るだけ安静にしておきなさい」というお医者さんがいました
(今ではどうか知りませんが)。
お医者さんの勉強、不勉強を素人が知ることが出来るという、ある意味怖い時代になった訳です。
それはさておき、このように統計学は、実際のデータを元に事実を解釈する訳ですが、今までは少ないデータから、如何に正確な事実を導きだすかが重要でした。
情報技術が発達するまでは、データを集めること自体大変でした。
今でも旧態然とした統計をとっている例としては、テレビの視聴率調査が挙げられます。
視聴率は、三大都市圏で600世帯、その他比較的都会の数カ所で200世帯ずつ、計3400世帯のテレビにメーターをつけて、データを集めています。
このような調査では、全国何千万世帯の動向を論じるのは、かなり不正確である可能性が高いです。
いまどき、こういった方法でしか調査できないのか、ちょっと疑問ですね。
現在では情報技術の発展により、非常に膨大なデータが扱えるようになっています。
身近な例で言えば、現在世界で流通している全ての音楽をデジタルデータに変換すると6TB程度になるそうです。
現在売られている汎用品のハードディスク、3個分で足りてしまいます。
また、データの内容も、以前はほぼ数値データばかりの取り扱いでしたが、今では位置情報、顔認識までいろんなデータが扱えるようになりました。
このような、膨大で複雑なデータのことをビッグデータと呼んでいます。
ビッグデータが最も活躍した例としては、東日本大震災での交通情報が挙げられます。
大地震で、どの道路が使えるか全く分からない状況だったときに、ある自動車メーカーが、自社の持つ震災直後の交通量のGPS情報を政府に提供し、利用可能な道路を知ることができました。
この他、農業分野でも活用されています。
衛星画像から、作物栽培の生育状況や害虫の発生状況を解析し、農家の栽培管理に役立てるという取り組みが行われています。
現在では、ビッグデータの利用はなくてはならないもの、といってもいいでしょう。
様々な分野での利用により、日本のGDPを60兆円押し上げているとも言われます。
ただし、利用に関しては、問題点もあります。
一つは、抽出の偏りです。
どんなに沢山データを集めても、その母集団に偏りがあると、使えるデータにはなりません。
何10年も昔のアメリカの大統領選挙で、ある雑誌社が200万人分の世論調査をしたにも関わらず当選者の予測を外したことがあったそうです。
一方で別の調査会社は、3000人の調査で当選者を見事当てて話題になりました。
この違いは、200万人の方が、比較的富裕層ばかりだったためと言われています。
当時はまだまだ高価だった、電話を使った調査だったのです。
一方で3000人の調査の方は、まんべんなく色んな層について調査を行い、予想を的中させました。
とはいえ、最近ではこのような抽出の偏りがあっても、それを補正して精度を担保する方法も行われています。
選挙絡みで言えば、一昨年の参議院選挙をヤフーが自分のサイトのアクセス解析を行い、ほぼ正確の予想を的中させました。
インターネットの調査ですと、どうしても年齢層や政治信条に偏りが生じていますが、それでも扱い次第で精度良く予想できたのです。
これとは別にもう一つの問題点として、個人のプライバシーも注意する必要があります。
FacebookやLINEなどのSNSは、便利な反面、その気になれば誰がどんな発言をしているか全て分かってしまいます。
お買い物のときの会員カードなども、気になります。
売る側からすれば、どんな人がどんなものを買っているか分かり、非常に便利になりましたが、買う側からすれば、どんな風に利用されるか全くのブラックボックスとなっています。
さらには、雑踏の中で、個人を特定することも可能です。
駅ビルで、特定の人がどんな風に移動して、どの店に入った後何を買ったかかまで、やはりその気になれば全て分ってしまいます。
よくも悪くも大変な時代になったものです。
このような時代では、「統計なんて関係ない、漏らされて困る個人情報などない」などと言っておられません。
自分の行動は、全て監視される可能性があると知っておくだけでも重要かもしれませんね。