使えるベイズの定理 | 木下英範のブログ

使えるベイズの定理

現在、日本の女性が乳がんにかかる確率は4%だと言われています 。A子さんがマンモグラフィー検査を受けて、結果が陽性だったとします。


マンモグラフィー検査では、
乳がんにかかっている人の80%が陽性、
乳がんにかかっていない人の9.6%が陽性(偽陽性)
となります。

(※正確な値ではないかもしれません)


A子さんが乳がんを患っている可能性は何%でしょうか?


一見、80%正しく判断できる検査で陽性になったのだから、もうほぼ乳がんに間違いない。と思ってしまうかもしれません。でもそうではありません。ポイントは女性全体で乳がんでない人の割合が96%いることです。そして女性全体でマンモグラフィー検査で偽陽性になる人が9.6%いるということです。


この確率を計算するにはベイズ定理の概念を使います。トーマス・ベイズ(Thomas Bayes)は18世紀のイギリスの牧師で、確率論を研究した最初の数学者だったと言われています。神の存在を方程式で説明できると主張したそうです。それではベイズの定理を使って解いてみましょう。


木下英範のブログ-乳がんの確立

健康であるのに陽性と診断されてしまう(偽陽性)確率は、
「女性全体の乳がんでない確率(96%)」×「偽陽性の確率(9.6%)」=9.216%


真の陽性である確率は、
「女性全体の乳がんである確率(4%)」×「陽性の確率(80%)」=3.2%


したがって、A子さんが乳がんである確率は、
(「偽陽性の確率」+「真の陽性の確率」)が「真の陽性の確率」に占める割合ですから、
「真の陽性の確率(3.2%)」÷(「偽陽性の確率(9.216%)」+「真の陽性の確率(3.2%)」)
25.7732%


80%正確な装置が陽性と判断しても、実際に乳がんである確率は26%弱にすぎません。
(だからといって精密検査を受けなくていいと言っているわけではありません)


これは一例ですが、このようにしてある確率で起こる事象が、親と子という入れ子になってる状態の時に、親の確率(ベースレート)を考慮しながら、子・孫と解いていく方式がベイズの定理です。式にすると下記のようになりますが、別に式を覚えていなくても図が書ければ簡単に計算できます。


P(B) = 事象Bが発生する確率
P(B|A) = 事象Aが起きた後での、事象Bの確率
とすると、


木下英範のブログ-ベイズの定理


システムのバグがどこに潜んでいるかを判断するときにも使えます。まずハードウェア故障の確率はメーカーからある程度取得できますから、それがベースレートになります。その上に乗っているソフトウェアはテスト時、または運用時にバグの率が出ていますからある程度推測できます。これを入れ子関係にしてベイズの定理を当てはめるとあてずっぽうでやるよりも切り分けが手早くできます。


我々が情報を判断するときは最新のニュースに引っ張られて前提条件を忘れがちです。そのときに少しでもベイズの定理が頭にあれば、判断ミスの可能性を減らすことができるでしょう。ちょっとまてよ、前提はなんだったかな?と常に考える癖をつけることです。



【参考文献】
仕事に役立つインテリジェンス 」(北岡元)
Wikipedia - ベイズの定理
CNET Japan - グーグル、インテル、MSが注目するベイズ理論
AllAbout - 女性の健康