頭の悪い話・前回の続き、というか少しの補足 | 誰かの妄想

頭の悪い話・前回の続き、というか少しの補足

前回、仮に相関関係が示されても、因果関係があるとは限らない、という、統計上のかなり初歩的な原則について説明した。

http://ameblo.jp/scopedog/entry-10146244721.html


で、実際に文科省のサイトから学力テストのデータを見てみたのだが、相関とか因果とか言う以前に、そもそも都道府県の順位って意味あるのか、という点に気がついた。

http://www.nier.go.jp/08chousakekka/08chuu_data/zenkoku/02_chuu_kyouka_chousakekkagaikyou/m04_chuu_kyouka_chousakekkagaikyou.pdf


順位というのは、都道府県別の平均点数の順番なわけだが、言うまでもなく各都道府県には、平均値以上の点を取った生徒、平均以下の生徒が混在している。


で、都道府県ごとに、点数の分布があるわけですよ。都道府県別に、つまり所属都道府県別に、分けられた集団には、平均点数という一つの値しかないわけではなく、個々人の点数を初め、中央値や最頻値、信頼区間など、色んな評価基準があるわけです。

統計学にうるさくない分野では、平均値を代表値として使うことが多いわけですが(例えば、平均年収とかね)・・・。


ここで重要な点。


平均値を代表値として選んでも良いのは、その母集団が正規分布に従っている場合。


正規分布というのは、多分高校くらいの確立統計で出てきたと思うんですが、まあ確率分布関数のグラフが釣鐘型になる分布で、最も基本的な分布です。


この場合、平均値・中央値・最頻値は、同じ値となり、最も理想的なんですが、実際多くのデータでは、そこまできれいな釣鐘型になったりしません。


例えば、平均年収ですが、これを分布にすると、高額側にすそを引いた、少し歪んだ釣鐘型になります。

参照:http://nensyu-labo.com/heikin_kaisou.htm


このような形状の場合、


最頻値<中央値<平均値


となります。

上記http://nensyu-labo.com/heikin_kaisou.htm にはサラリーマンの年収データがありますが、ここから男性を例にとって説明すると、


最頻値は、300万円台

中央値は、400万円台

です。

簡単に言うと、300万円台の年収の人が最も多く、400万台の年収を貰っている人は、自分より年収の多い人・少ない人がほぼ同数いる、という状況です。


一方、平均年収は、542万円です。

http://nensyu-labo.com/2nd_salary.htm


平均年収だけを見ると、400万円台の人は、「俺は周りの人たちよりも年収が少ない」と思うでしょうが、実際には自分より年収の多い人・少ない人がほぼ同数であって、特に少ないわけじゃありませんね。

300万円台の人は、「俺ほど年収の少ない奴はほとんどいない」とか思うかもしれませんが、300万円台の人は分布中最も多いわけですね。


つまり、自分の年収と比較して考える上では、平均値を参照するのは適切じゃないわけですね。


母集団が正規分布から外れた場合に、平均値を用いるのが適切とは限らない理由がこれなんですね。



で、実際に文科省サイトのデータを見ると、点数の分布(サイトのPDFファイルにあるのは正答数分布)が正規分布じゃないことがわかります。


中学生の国語A、国語B、数学Aは、点数の低い方向にすそをひいた分布になっており、数学Bはどうも山が二つある特殊な分布になっているようです。


このような分布の代表値として平均値を使ってもあまり意味はありません(特に数学B)。


したがって、平均値の大小で決めた順位についても大した意味はないわけです。


このような分布について一つの数値で代表値を決めるなら、中央値を用いるべきでしょう(生徒にとっては、自分が集団内の上位にいるのか下位にいるのかよくわかる。低得点者に引っ張られた平均値だと、集団内の下位にいても平均値以上の点数であることがあり自分がどの程度なのか把握できない)。


が、実際には一つの数値で決めるべきではなく、分布の形状に留意しつつ、平均値・標準偏差・信頼区間や中央値・四分位値などを使うべきであって、軽々に順位をつけるべきではないでしょう。

特にそれを使って、政策立案などを行うような人にとってはね。



さて、まあそれでも正規分布とみなして考えてみるとしましょう。

で、文科省の実データを見ると、以下のようになってます。


中学生国語A:平均正答率:25.2/34、標準偏差:5.8

中学生国語B:平均正答率:6.2/10、標準偏差:2.5

中学生数学A:平均正答率:23.0/36、標準偏差:9.1

中学生数学B:平均正答率:7.5/15、標準偏差:3.7


ぱっと見で判ると思いますが、どれもこれも標準偏差が大きいんですよ。


ちなみに、平均点が高かった福井県と平均点が低かった沖縄県で比べると、こうなります。


中学生国語A:福井県:26.6/34、沖縄県:23.1/34、平均値の差:3.5

中学生国語B:福井県:6.7/10、沖縄県:5.4/10、平均値の差:1.3

中学生数学A:福井県:26.0/36、沖縄県:17.8/36、平均値の差:8.2

中学生数学B:福井県:8.8/15、沖縄県:5.7/15、平均値の差:2.1


いずれの平均値の差も、標準偏差よりも小さいですね。

これ、どういうことかと言うと、福井県の平均点より高い点数を取った沖縄県の生徒や沖縄県の平均点より低い点数を取った福井県の生徒が少なからずいるってことです(大体、2~3割程度)。


そういう状況を捨象して、単純な都道府県別の順位をつけることにどんな意味があるのか、さっぱりわかりません。


(教え方などの問題などについて調べたいのなら、都道府県別ではなく、学校別とか、教え方別でやるべきですからねぇ)