(過去記事1)から5回にわたったシリーズ
私立中学に学力向上効果はあるのか
を終えた。
言いたかったことは、
そこで取り上げた動画や記事が引用している論文では、
(*0) 私立中学に学力向上効果がある
ということは示されていない、ということです。
著者の肩書とアブストラクトだけ読むと信用してしまうのだけれど、
よくよく内容を読むと、示されているのはアブストラクトの最後から二文までで最後の文は著者の意見に過ぎないことが分かります。本文中にはいろいろエクスキューズ・留保が付記されています。対専門家筋への自己防衛手段は本文内では用意している.これを専門家の良心ととるか狡さととるか.安易に肩書きとアブストラクトを信用して世間に広めようとすると、あとで原著者から登ったハシゴを外されることになってしまう。ご用心。
本当は数学的意味も込めてもっと詳細を書きたかったのだけれど、あの5回だけで十分、
(*0)は示されていない、
ということは伝わったと思うので、あれで終わらせました。
あれだけ生データがおおざっぱだと統計処理だけどう頑張っても結論ははなから見えていた、ということです。
今回はその補足。
前回まではあえて避けていた数学や統計の細かい話に触れて,詳細へ入ります。とは言っても高校数学に毛が生えた程度です。統計数学が理解できなくても国語力さえあれば(*0)が示されていないことは分かるのですが,統計数学が理解できるともっとはっきりします.
最小二乗法(OLS)はこのブログでもドルコスト平均法の嘘とかCAPMとかで書きました(過去記事2、3)。
論文の中でも書いてあるOLSはOrdinary Least Squaresの略記です.誤差の2乗の平均が最小となるような近似直線を求めることです.
この近藤氏論文では、最小二乗法とともに操作変数法が使われています。
以下での記号の定義:確率変数X,Yに対し,共分散
Cov[X,Y]:=E[(X-E[X])(Y-E[Y])]
を使います.(XとYが独立ならCov[X,Y]=E[XY-XE[Y]-YE[X]-E[X]E[Y]]=0.)
ここでE[X]は平均とします。分散Var[X]:=Cov[X,X].
さて,
X=X(it):(学校iの西暦t年における)中学入試合格者最低偏差値
Y=Y(it):(学校iの西暦t+6年における)大学合格実績
(X(i,t)のカンマを省きます.)
としたとき、いろんな学校や年度で(X,Y)をプロットして
最小二乗法で
Y=αX+β
という近似直線を求めるわけです。α、βは学校iや年度tに依存しない定数。
i, tをランダムに選んでX,Yを確率変数とみなします.
Var[X]≠0
は前提として、
(過去記事2)で書いたように高校数学の知識でやさしく
(*0.2) α=Cov[X,Y]/Var[X]
が示されます。
念のため証明は後述します。下のサイトにもあります。
この論文では実際の受験データで調べて,
このαははっきり正の値をとります(予想通り).また,
相関係数
Corr[X,Y]:=Cov[X,Y]/(√(Var[X])√(Var[Y]))
はある程度大きくなります。
つまり,
中学受験偏差値Xは大学合格実績Yと,ある程度強い相関関係がある
ということです.偏差値30から70までの幅広いレンジでやっているので,この相関関係があること自体は直感と一致していて,計算せずとも明らかです.むしろ論文p71図1を見ると,相関はだいぶ弱いとすら思う(図1の卒業生一人当たり国立大学合格数では偏差値42の学校が偏差値63の学校に勝っているケースがある).
この相関関係が因果関係なのか?
が,この論文のテーマになります.
各学校i,入学年度tに対し,
e(it):=Y(it)-(αX+β)
は、学校と年度に固有の(線形近似からの)誤差となります。
(*0.5)Y(it)=α X(it)+β+e(it)
と書けます.
(*0.2)の証明———————
Var[e]=Cov[Y-αX-β,Y-αX-β]
=Var[Y]+α^2Var[X]-2αCov[X,Y]
=Var[X](α-Cov[X,Y]/Var[X])^2+Var[X]-Cov[X,Y]^2/Var[X]
なので、
(*0.2)の時、Var[e]は最小となる。
E[e^2]=E[e^2-2E[e]e+E[e]^2]+E[e]^2=Var[e]+E[e]^2
なのでE[e^2]が最小となるのはVar[e]が最小で尚且つE[e]=0の時。
E[e]=E[Y]-αE[X]-β
なので
β=E[Y]-α[X]
とすればE[e]=0でE[e^2]最小。
(*0.2)の証明終わり——————-
Cov[X,e]=Cov[X,Y-αX-β]=Cov[X,Y]-αVar[X]=0
なので、
(*0.5)のeとXに相関はありません。
私は個人的にはこのe(it)はほとんど完全なランダム変数なんじゃないかと思っています。(i,tを動かしたとき.)
この論文では調べていないけれど、
いろんな年度tで計算してみて、
・ある学校iでは年度tにかかわらず常に正で大きい、e(it)>0
・ある学校jでは入学年度tにかかわらず常に負で小さい、e(it)<0
と、かなりの学校がこの2グループに大別できるなら
学校ごとにインプットの質が違う根拠になりえる思うのだけれど。
誰か調べた例はあるのでしょうか。(私の予想ではほとんどの学校iで年度tによってe(it)が正になったり負になったりする.)
もっとも、この論文でもあるように、4科目受験校と2科目受験校を同じ偏差値で比較しているので、4科目受験校はe(it)>0になりやすいとかはあるでしょう。あと、競合校が豊富なところは合格者最低点と合格者中央値が狭く、e(it)<0になるかもしれません。学校によるインプットの質とは言いきれません。
本論文ではこの誤差e(it)にランダムでない学校の要素があるとし、
(*1)Y(it)=a X(it)+S(it)+c(it)
と考えます。S=S(it)は
数学的には,Xと異なる何らかの(隠された)確率変数です.
論文著者は
6年間の(西暦t年度入学者に対する)学校によるインプット
を想定しています。aは学校iや入学年度tに依存しない定数。
c=c(it)はXに依存しない(i,tをランダムに動かしたとき).
インプットは測定が難しいけれど、近藤論文では
生徒数
中学受験科目数
宗教
小学校からの入学者比率
高校からの編入者比率
から探しています。(けっきょくどれも有力候補はなし)
ちょっとここで問題がおこります。
もしも
SがXに依存しない(Cov[X,S]=0)
のであれば、
Covの線型性(Cov[X,cY+dZ]=cCov[X,Y]+dCov[X,Z])から、
Cov[X,Y]=aVar[X],
a=Cov[X,Y]/Var[X]
となり,上(*0.2)のαとaが一致します。
ところが
SがXに依存する(Cov[X,S]≠0)と
こうはなりません。
たとえば入試偏差値の高い学校には、良い教員・校長・スタッフが来たがったりとか、寄付金が集まりやすく設備が良かったりとか、伝統校であってそれなりの雰囲気があり生徒にやる気をおこさせるとか、進学校割引で学習塾に入りやすいとか,なんらかの形でXの値がSの値に影響する場合があるかもしれません。
そこで
操作変数法
を使います。以下でこれを説明します.
別の確率変数Zで、ZはXに依存するが、Sと関係ないものを使います。
つまり
Cov[Z,X]≠0、Cov[Z,S]=0
を要請します.
このとき、Cov[Z,Y]=Cov[Z,aX+bS+c]=aCov[Z,X]から,
(*2) a=Cov[Z,Y]/Cov[Z,X]
となります。
近藤氏は、操作変数Z=Z(it)としてサンデーショックを使いました。
例えば
2月1日に普段入試を行う非プロテスタント中学校は71校中12校あるが
その学校は、1998年だけZ=1、そうでない年はZ=0とする。
そうでない学校は毎年Z=0
と定義します。
すると
Z(it)=1のときはX(it)は競合が減って高い値になる傾向にあります。正の相関があります。
そしてそれを実際に生データをいれて
Cov[Z,X]>0を確かめます。
そのうえで、
Cov[Z,Y]
は
合格実績Yの定義として大学平均偏差値、一流大学合格延べ数、国立大学合格延べ数、4年生大学合格延べ数といろんな基準でためすが、小さな正になったり小さな負になったりします。
そして
Cov[Z,Y]=0の可能性が高い
との結論を出します(論文p78の8行目)。
これと(*2)から、(*1)は
Y=S+c
となり、入試偏差値Xと合格実績Yとの直接的な因果はなくなります。
つまり、
(*3)合格実績Yに影響するのは、中学入試偏差値Xそのものではなく、そのXに依存する何かである
ということです。
XとYに相関関係はあっても因果関係はなく、Xに依存するSがYへの原因であるということです。
例えば、(過去記事4)で”相関関係と因果関係は違う”という話を思い出しましょう。
(例1:バス停)ーーーー
Yは,路線バスがバス停へ来るまでの待ち時間
Xは,バス停での待ち人数
Xが多いほどYは短くなるという相関関係があります。
でもXはYの原因ではありません。
Zを雨が降るとき1,降ってないとき0としましょう。
Z=1なら雨が降ってバス利用者が減りXは少なくなりますが、Yは変化しません。(雨の日の道路事情は考えない。単に雨の日は外出を避ける人が多くなると仮定。)
Z=0なら晴れてXは多くなりますが、Yは変化しません。
ZとYは相関関係がありません。
よってXはYの原因ではないということがわかります。これが操作変数法による因果関係の判別法です。
(例2:高級車税)----
Yが金持ちの人数
Xが高級車の売れ行き台数
XとYには相関関係があります.
Yが大きくなればXも大きくなりますが,Xを大きくしてもYは大きくなりません.
Zを高級自動車税率としましょうか.Zを大きくすればXは小さくなりますが,それによってYは変わりません.ZとYに相関が無いことでXはYの原因で無いことが分かります.
Zが操作変数となるわけです.
ーーーーー
ここまでが近藤氏論文の(*3)へいたるロジックです。
私の反論としては、
ZのXに与える影響がもともと小さいということです。
Xは偏差値30から70まで大きく動くのにZが0か1かでXはごく僅かしか動かない。(Zが1になって偏差値20も30も動いた学校なんてない。前年および翌年より高くなった学校は半数未満。もっと言えば、Z=1となる12校は入試日を実際に変更したかどうかはカウントしていない。そうしたのにはそれなりの理由があるので論文著者に罪はないものの、それでZとXの相関は更に小さくなる。)
そうすると、
Sは
”入学者の入学時点での学力”以外の何か
ではなくて、
”入試日変更によって動かなかった”何か
となります。実際多くのXは動いていないし動いても微動。
”入試合格最低点付近の学生の学力”以外の何か
あるいは
入試日変更で入学する学校を変えなかった生徒の(入学時学力含む)質・気質
ともみてとれます。
数学的には,Sは,
偏差値Xとは相関するがサンデーショックZには相関しない大学合格実績Yの成分
という仮定しかありません.
Xを入学時学力、Sをそれ以外、とするのは早計です。Xは最低点です。
学校が入学時点での学力関係なく生徒の大学合格数を増やした
と言うわけではありません。
よく読むと近藤氏論文でもその可能性にはエクスキューズしているのですが、アブストラクトやまとめでは過小評価しているようです。だから本文まで全部読まないと真意は分からないと言うことです。社会科学・経済学の論文ではままある事なので注意が必要です。
近藤論文のまとめの節を字面だけ表面的に読んでいくと、
(*4)入学時点の偏差値は大学合格に関係なく、関係あるのは学校のインプット、
という近藤氏の意見に惑わされるんだけど、私が感じたのはむしろ、逆に、
(*5)入学時の偏差値が大学合格にすごく関係する、
と思うんですよね。
ここでの”逆に”のトリックは,(*4)の偏差値は正確に言うと中学合格者最低偏差値になりますが,(*5)の偏差値は中学合格者の総体ないし上位層の偏差値を指すというところにあります.
つまり,
サンデーショックによって、入試合格最低点付近の生徒が少し学力底上げしても、合格実績は向上しない、ということは、合格実績のほとんどは入学時点でトップだった生徒が稼いでいる
という捉え方もありうる(大学合格延べ数だから猶更いえる)。サンデーショックで中学合格者最低偏差値への影響はあるが小さいというデータだったが,中学合格者偏差値中央値への影響の情報は無いので(*5)の確度がどのくらいかはこの論文のデータからは分かりません.
いかがでしたでしょうか。先日までの5回シリーズと結論は変わらないのですが、より詳細に易しい統計学を使って著者のロジックにそってみました。
数学的定義をよく見ると、どこまでが調べられたことでどこからが直感的推測かが区別できるようになってきます。
(過去記事1)
(過去記事2)
(過去記事3)
(過去記事4)