何年か前、統計学が最強の学問という本がベストセラーになったことがあります。著者は東大医学部(保健学科)出身の方。ベストセラーの余勢をかって実践編と称する2冊目を出したものの、柳の下の2匹目のドジョウにはならず、販売部数は低迷したようです。現場での実務経験のない著者が実践編を書く(書ける)とは驚きですが、出版社の辣腕プロデューサが仕掛けたのでしょうか。それはともかく、最強かどうかは分かりませんが、品質管理、需要予測などで統計処理をやってきた経験からすると、統計は実用的で生活にも直接関係すると思います。そんな中、先日の新聞に書籍紹介欄に瀕死の統計学を救えという本が紹介されていました。

コロナ騒動で各国の検査数、感染者数、死亡率など様々な数字が発表され、日本は感染者数が少ないとか、死亡率が少ないなどと主張する皆さんがいます。それに対し、PCR検査数が少ないので発見されていないだけとか、アビガンの投与で重症化していないからだ等と喧しく議論されています。問題をやっかいにしているのは、都合の良い切り口で集めた情報(確証バイアス)を使い、できるだけ矮小化したい思惑を反映した楽観論を展開する御用学者、メディア、タレントの面々です。情報の信ぴょう性を確かめる習慣がないお茶の間の皆さんは、これを信じてしまいます。それが好都合な方々がいますが、あまりにも無責任!スペイン風邪の二の舞になったらどうするのでしょう?たかが風邪だと思っていたものが、第一次世界大戦を終息させる要因の一つになったことを思い出しましょう(クリック)。これを踏まえ、今日は、発表される数字、統計値を受売りで信用してはいけないこと、信憑性を自ら確認する習慣を身に着ける大切さについてのブログにします。
 

これまでに、インチキ治療に使われた数字、グラフのウソインチキ免疫療法が示していた効果を示す数字や根拠のうそに関するブログを書いてきました。もっともらしい数字やグラフを見ると信用しがちですが、政府の経済統計にもそれが言えます。実態とズレのはなぜかというタイトルの記事の記事を見かけました。
 
欲しい傾向を示すような都合の良いサンプリングをすれば、実態とズレるのは当然ですが、政府発表はもちろん、然るべき機関が発表する数字は信用しがちです。我々はマスコミ各社が発表する内閣支持率が各社各様なことを知っていますが、違いの元は①サンプリング対象の違い、②質問に先立つ状況説明の違い、③質問内容の違い、④質問順(意図的に誘導される可能性あり)の違いによるものです。ギリシアの国民投票用紙がその典型です。

イギリスの政治家にベンジャミン・ディズレイリという人物がいます。彼曰く、“うそには3種類あり、そのうちの一つが“統計のうそ”とのこと。統計処理されたデータ、グラフ、具体的な数字をみると何だか信頼できそうと思ってしまいます。しかし、額面通り受け取ってはいけないものが少なからずあります。それは、発表側が意図的に都合の良いデータを集めて(確証バイアス)分析し、調査結果として公開する場合です。すなわち“統計のうそ”です。もっともらしい数字、グラフを示してがん治療実績を喧伝し、患者を集めるクリニックも同様です。そのような治療法があればノーベル賞もので、自信たっぷりな説明に一縷の望みをかけた患者は吸い寄せられてしまいます。私たちは、統計値を見る時に何に注意したらいいのでしょう。事例を挙げて簡単に説明します。


~~~統計のうそ/その1~~~
・米国のある有名大学が卒業生の所得を調べるため、卒業生にアンケートを送った。
・回答率は10%。
・結果は、その大学の卒業生の所得は国民の平均よりも高い!
これを見た一般の人は、『あの大学なので大企業に務めていて、然るべき職位にいるからだ』と思うでしょう。しかし、よく考えてみましょう。“アンケートに回答した人が10%しかいなかった”、これがポイントです。誇らしい収入を得ている人は回答し、収入が少ない人は回答していないということは容易に想像できます。要するに、所得を引き下げる可能性のある卒業生のデータが入っていないということです。上澄みだけのデータを集計し平均所得を出せば、当然国民平均を上回ります。どの層から集めたデータなのかをチェックしなければならないということです。


~~~統計のうそ/その2~~~
安保法案の是非が議論されたことがあります。今までよりも弾の飛んでくる確率の高い場所での後方支援をやるようになれば自衛隊員が戦闘に巻き込まれて死亡(殉職)する可能性が高いと思うのが普通の理解です。これに対し、安倍首相は国会答弁で『今までも1800人の隊員が殉職している』と述べました。今までも1800人もの隊員が死んでいるので、それほど珍しいことではないという主張です。背景を知らずに聞くと、『そうか1800人も死んでいるのか』となり、自衛隊員が亡くなるのはそれほど珍しくないというイメージを抱いてしまいます。推進派には『戦死者が出ても驚くことではない』、『自衛隊員の殉職はやむを得ない』というイメージを持たせたいという思惑があるかも知れません。この1800という統計値(集計値)の真偽は正しいのでしょうか?ちょっと調べたところ、警察予備隊が発足した1950年以降の死亡者の累積は1874人なのでおおむね正しいと言えます。しかし、この数字は、車両や航空機、艦船による訓練中の事故によるものが約7割、残りは病気が原因で亡くなったもので、戦闘に巻き込まれて死亡した数ではありません。つまり、戦死者ではないということです。1800人も死んでいるという安倍さんの回答を作った官僚が、問題の論点をすり替えていることが分ります。これも統計値(数字)を使ったカラクリと言えるでしょう。


~~~統計のうそ/その3~~~
総務省がインターネットの普及率が100%になったと発表したのは大分前ですが、このアンケート、23000人からの回答なので統計値を議論する母集団としては十分な数です。しかし、このアンケートはインターネットを使って行われました・・・アレッ! 麻生総務大臣(当時)は『これは政府主導によるIT政策の効果の現れと言っていいだろう』とのコメントを発表しました。呆れます。この様なことがあるので、身近な統計値についても、以下のことに注意して評価しなければなりません。

統計(統計値)を見る際の注意を纏めると以下のとおりです。
①どこの誰が発表した統計か(都合の良い発表になっていないか)(上述その1、2、3)
②どのようなデータをどの様な方法で収集、処理、編集したか(上述その1、2、3)
③問題がすり替えられていないか(上述その2)
④サンプリングに問題はないか(上述その1、2、3)

 

※質問はosugisama@gmail.comまでどうぞ。

※リブログを除き、本ブログの無断転載、流用を禁じます。