ビッグデータは星占いを超えられるか?
何年か前のこと。
ある勉強会で、誰でも見たことのある、そっち系の有名人(学者さん)がいた。すずめは、
「ビッグデータと星占いって、どっちが当たるんですか?」
って聞いたら、烈火の如く怒って、ドン引きしてしまった。
オトナがあんなに怒るかな。。。
----------
最近、よくビッグデータってのが出てくる。
なんだか、魔法みたいなモンらしい。いろんなデータを普通のヒトには計算できないよーな量を集めて、そこから答えを導く。
おおお、すごいじゃん。
え?
でも答えって何?
例えば、
日本中の人、ってのは難しいので、
(なぜ難しいかというと、あなたのデータ、記録しても良いですかっていうのを、一人一人確認してかなくちゃいけないしね)
まあ、或る街全部とか?、一定の組織とか?っていうのの中っていう、或る程度限られた範囲になるわけだけど、その人たちのいろんなデータを集めるわけだ。
それを、例えば、健康について解析する。
すると、
例えば、こういうヒトがナントカっていう癌にかかって若くして死んでる人がミョーに多いっていうのがわかってくる。
例えば、身長が163—165センチで体重が83キロ—100キロ。
会社員で、甘いものが好きで、子供の頃ナントカっていう病気にかかってて。。。とかなんとか。そんなのすずめがエクセルで叩いても出てきそうだけど、何百万人って項目があったら、エクセルはパンクするかもだから、やっぱりすごいわけだ。
例えば、皆、薄々知ってることとしては、
毎日甘いもん、ハイカロリーばっかり食べたら太る。(知らないヒトもいる。知らないことにしてるヒトもいる。考えないことにしてる人もいる以下自粛)
でもって、それを長いこと続けてたら、糖尿病とか高血圧とか。。。?
ハイ、うすうす、知ってます。
だけど、もっとそれが、細かくも分析できてく。
例えば、或る地域、
この地域だけ、なぜか高血圧が多い。
だけど住んでる人はあまり気づかない。
隣のおじいちゃんも、お向かいのおばあちゃんもそれで亡くなってるけど、そんなモンだと思ってる。でも、それを、きちんとしたデータで見せることができたりすれば、納得しちゃうよね。
あなたの住んでいる地域は、全国の平均より、高血圧で亡くなってる人が多いですよ。
でも、そんなこと言われたって。。。
で、調べてみると、その地域の郷土料理、平安ラーメン。コレは平安時代からあるラーメンで、遣唐使がもってきたって噂。地元の人に人気。皆、赤ちゃんの頃から食べてる。塩気が聞いたスープを飲み干すのが作法!
みたいなことがわかった。で、その平安ラーメンの店主が、工夫。
塩気が効いてるスープをつけ麺にして、飲み干せないようにした。
結果、塩分摂取が減る。。。。みたいな工夫をしてみた。ら、皆、血圧が下がって、健康になった。。。みたいな。
そりゃすごい。
あ、でもさ、
すずめはそんなラーメン食べてないけど。
すずめだし。
この時の視点、二つある。
個人としての見解と、
公衆衛生としての見解。
すずめみたく、ラーメンを食べないすずめはどう考えれば良いのか。
ラーメン店主がどんぶりラーメンをつけ麺に変える?
スープ飲まなくたってあそこのじーさん脳卒中みたいなのもあったりして、業績悪化。。。とか?。。。公衆衛生としてもどうなのか。
要するに、医療政策として、いろんな方法を考えても、当たるも八卦当たらぬも八卦。まあ、みんなでやれば、多少効果あるかもだけど。費用対効果で考えると、かなり面倒。。。
まあ、
この手の真面目な分析はいろいろあるわけだけど、
よく、病気になってから医療費をかけるんじゃなくて、病気になる前に、ならないようにするための予防をやったらいいんじゃないか。ってイケンがある。だけど、平安ラーメンみたく、それを計算すると、まったくもって、費用対効果があまりに低いというのがわかってしまったりしてる。
あらあら、そういう結果なら、予防なんてお金の無駄じゃん。(ちなみにがん検診の費用対効果は100万とか200万とかになっちゃったりするわけだけどさ)
「もし」、ビッグデータで、
例えば25歳の乳がん検診は費用対効果が低いってことになったらどうだろう。例えばいろんな理由があるかもしれない。検診でも見つかりにくいとか、なる人がすごく少ないとか、それであまり効果が無いという計算が成り立つことになるんだろう。
じゃあ、それを、個人として、どう考えれば良いか。
ビッグデータは、1万人だか10万人だかの例の合計。これと、自分自身の例がどれほど一致するかということになる。確かに、1万人に1人の病気になんてならないって、思う。でも、ふっと思うとどうだろう。例えば、友達の誰かの知り合いが、白血病になったとかっていう話を聞くことはないだろうか。乳がんなんてもっといっぱいいる。
それを思った時、ビッグデータで「ありえない確率」(それがどういう数字かは不明)であっても、自分もかかるかもしれない気がしてくる。一万人に一人と10人に一人。この差を私たちは、「解釈する」ことはできるのか。
ビッグデータは「データ化」ということで、おぼろげながら、「最近、友達がガンになったって話をよく聞く」みたいなんじゃなく、この年齢、地域で何%の人がガンにかかってるっていう数字をきっちり出す。
ん?
でもそれを、どう、利用するんだろうか。
10人に一人が乳がんになるから、10歳から毎月マンモグラフィーするのか。
ただ、ある日気になった年齢、40歳から2年に一度するのか。
その間のどこが良いのか。
実はそれは、人が決めてる。一番効果が高いのが40歳以上2年に一度だとしても、じゃあ、2番目は無視して良いのか。いやいや。。。
だから公衆衛生ということになると、予算がこれだけあるからじゃあ、一番安あがりってことで、ココにしよう。。。みたいな?
対策にしたって、平安ラーメンみたく、当たるも八卦当たらぬも八卦だし。
いずれにしても、それって、個人としては関係ない。どこにボーダーを求めるかなんて、何の根拠も持てないので、感覚で決めることになる。
え?
それって、星占いとどう、違うの??
ビッグデータは単に言い訳にすぎないんじゃないの?
皆が薄々知ってたことを検証して、言い切っちゃう。
だけど、結局は判断するのは自分。
ザクっと言えば、
『統計的事実』と、
自分がどうするべきかは、違う。
今年の双子座は健康に気をつけましょう。
ってことだったら、この機会に、マンモグラフィーもすべての検査を受けてみようとか、
今年の双子座の健康は絶好調
だったら、人間ドッグ受けて(きっと何も出ないはず!)自身つけちゃおうとか。
そんなんでよくない?
もっと言えば、
血圧の薬、どの値で飲むか。
もちろん「推奨」はあるけど、どこから始めるかは自分が決める。統計じゃなく。
決められない?じゃあ、お正月のおみくじで決めると良いかもしれない。どうせ、先のことはわかんないんだし。
さて
ビッグデータは星占いを超えられるか?
ちゅんっ。