しばらく管理人自身としては記事らしい記事も出さずに、ブログサボっておりましたが、久しぶりにメインストリームな記事を。

 

このブログでは論文紹介は基本的にあまりいたしませんが、業界的な医師ブログではよく論文紹介がなされています。そうすると、〇〇の治療をするかしないかでは、妊娠率が〇% vs △%であり、有意に妊娠率が上昇した、とか、有意差はなかった、とかいう表現が出てきます。

 

イメージはつかめていたとしても、いったいこれがどういうことなのか、よく分からないという方もおられることでしょう。今日はそんなお話です。


 

例えば、10円玉を10回投げたとします。表が7回、裏が3回出たので、表が出る確率は70%、裏が出る確率は30%でした。じゃあ、この実験で、この10円玉は表が出やすいと言えるでしょうか。答えはNOです。たった10回しか投げていないのですから、表が7回出たのは単なる偶然の可能性もあります。

 

二項確率の計算式に当てはめると、10円玉を10回投げた時、

表と裏が 10:0 もしくは 0:10 の確率は各0.1%

表と裏が 9:1 もしくは 1:9 の確率は各1.0%

表と裏が 8:2 もしくは 2:8 の確率は各4.4%

表と裏が 7:3 もしくは 3:7 の確率は各11.7%

表と裏が 6:4 もしくは 4:6 の確率は各20.5%

表と裏が 5:5  の確率は各24.6%

(0.1+0.1+1.0+1.0+4.4+4.4+11.7+11.7+20.5+20.5+24.6=100%)

 

これは、表が7回、裏が3回出る確率は11.7%もある、ということを示しています。例えば、「この10円玉は表が出やすいイカサマ10円玉なんじゃないか」と統計学的に言うためには、表が9回、裏が1回くらいの値にならないと、たった10回のコイントスでこの10円玉に疑いの目を向けることはできません。「10円玉を10回投げたら表が7回、裏が3回出たので、表が出る確率は70%、裏が出る確率は30%なのでこの10円玉は表が出やすいです」なんて言ったら、統計学的には嘘八百(サンプル数が少なすぎて何も言えないクソデータ)ですが、統計なんてまるで分かっていない人が平気でこういうこと言ったりします(分かってて敢えて素人を騙そうとこういうことを言う人もたくさんいます)。数字自体は真実ですから、本当にタチが悪い。正しくは、「10円玉を10回投げたら表が7回、裏が3回出たので、表が出る確率は70%、裏が出る確率は30%で、有意差はありませんでした(p=0.17)」と表現しなければならないのです。

 

では、10円玉を1万回投げたとします。表が7000回、裏が3000回出ました。表が出る確率は70%、裏が出る確率は30%ですが、こちらは、有意差ありとなります。統計的には、これだけたくさん投げて差があるということは、その差は信用できる、ということになるのです。つまり、同じ70%、30%でも実験回数によって統計学的有意差がありとなったり、なしとなったりします。

 

実験回数を増やせば、例えば10円玉を100兆回投げて、表が50兆1億回、裏が49兆9999億回で、表が出る確率が50.0001%、裏が出る確率が49.9999%くらいなら(計算してないけど)多分有意差ありとなるんじゃないかと思います。例えば、10円玉の微妙な凹凸で表と裏で微妙に重さが違うのがここで数字として出ちゃいましたみたいなやつです。

 

70% vs 30%で有意差なしだったり、50.0001% vs 49.9999%で有意差ありだったりということに納得がいかないように感じる方もおられるでしょうけど、統計学的有意差というのは、実際にどのくらい差があるかということが言いたいのではなく(もちろん差が大きければ有意差は出やすいんだけれども)その調査が統計的にどの程度信用に値するかということが重要なので、サンプル回数が多ければ多いほど「差」を有意差ありと判断しやすいことになるのです。

 

 

ある治療が有意差ありとか、有意差なしとかよく言ったりしますが、例えば、ある論文で有意差なしと判断された治療があったとしても、その論文の100倍くらいサンプル集めて比較すれば有意差ありになる可能性もあるわけです。

 

 

有意差があるかどうかは学術的にもとても大事だし、それを否定するつもりもないけれども、例えば、10円玉を投げて、表が出る確率が50.0001%だから統計的にこの10円玉は「表が出やすい」と言えるかといえば、まあ言えるっちゃ言えますが、たった0.001%みたいなところを実際問題差があると考えるかといったら考えないわけです。統計的に差があるとは言っても、「まあ表も裏もほぼ同じだよね」と判断するのが妥当と言えるでしょう。

 

また、10回投げて表が7回、裏が3回の場合、いくら統計学的に有意差なしだと言っても、「はい、じゃあこれは差がないってことで」と判断するのは非常に抵抗がありますので、さらにサンプルを増やして、差があるのかないのか統計的にはっきりさせてもいいかも知れません、くらいのことは言えますが、10回投げただけの段階で差があるというのは言い過ぎです(統計学的には、あくまでも有意差なし)。

 

 

統計ほど人を騙すのに簡単なツールはなくて、具体的な数字(データ)を示されると、人はコロっと信じてしまうのですが、ちょっとサンプル数いじったり、検定をいい加減に行ったり、グラフの書き方ちょっと変えるだけで、印象操作なんてどうとでもなってしまいます。何かおかしいなというところまでは思えても、十分な知識がないと、具体的に何がおかしいのまではなかなか分からないものです。

 

少なくとも世の中には、コイン10回投げて表が7回出たから表が出やすいです!みたいな自称「データ」で溢れかえっています。ご注意ください。

 

 

ということで、今日はこの辺で。