(過去記事1)の続き.
この眞田論文では,中澤2013のマッチング法とは違う統計方法をとっているのだが,似たような趣旨の方法ではある.
マッチング法では5分割とか粗くしか取れなかった。サンプル数が少ないためである.サンプル数の少なさをカバーする統計方法を真田論文では採用した。
中澤2013で使ったデータは,
2007年東大社会科学研究所調査であってサイズは
男1213,女1352
程度である.
眞田論文2018でも同じデータを使って出している.
眞田論文ではさらに詳細な回答データのあるものに絞ったので少し減って,
最終的なサンプルサイズは
男性 1,152,女性 1,249
である
後発だけあって,15才時点大卒希望有無を入れたり,中堅校合格実績などを入れて,精緻化しているわけである.
通塾率も各都道府県で分けている.中澤よりは細かいがまだ十分細かいとは言えない.
眞田論文では,逆確率重みづけ法を使うことで限られたサンプルサイズでやりくりする方法をとっている.
この統計的手法の違いによって眞田論文の信頼度が上がったか下がったかは一概には言えないと思う.
ただ,日本全国の多岐にわたる生徒で,男女たった2000人程度で分析するのに,無理がある.
通信教育経験のある男子は138人.
スマイルゼミ・Z会・東進・進研ゼミ・スタディサプリ
など通信教育会社も多くあるし,受講期間も様々だろう.それらを一括して
あり(1),なし(0)
でデータ化してしまっている.
https://www.jstage.jst.go.jp/article/tss/47/0/47_69/_pdf/-char/en
眞田論文のp73-74の表4-6に,通塾・家庭教師・通信教育の経験の有無に関するロジスティック回帰分析
が出ている.
つまり,
通塾(家庭教師・通信教育)確率pにたいして, x:=log(p/(1-p))
(なぜこう置くかというと, y=e^x/(1+e^x)が成立してほしいから)
としたとき,
xを
15歳時暮らし向き,本の冊数,大卒希望,兄弟数,親学歴,親職業,通塾率高い都道府県か
などのパラメータで線形近似している.
C統計量が,表4-6の男女で,0.59-0.64
となっている.
この値は0.5-1を取り,0.5は無相関を意味し,1が完全に相関.
0.8以上で相関するという習慣なので,
0.6前後はかなり小さいと言える.
つまりは,これらのパラメータでxやpを予測できていない.
まあそれでも肝心の結果を見ていこう.
p76-77の表8-10である.
学校外教育(塾・家庭教師・通信教育)と進学校(または中堅校)合格の相関であるが,
その3*2=6通り,男女別なら12通りの数値のうち,統計的有意なのは,
塾と(進学校,中堅校)*(男女)の4通り
と
通信教育と進学校・女の一通り
だけであった.
面白いのは家庭教師は無相関かむしろ負の相関だったりする.
家庭教師つけたほうが進学校や中堅校への合格率が下がるわけである.
もっとも統計的に優位で無いので偶然かもしれない.
ただp74表4を見ると少し理由が分かる.
家庭教師経験は
大卒希望の有無と負の相関(女子で統計的有意)
家庭の暮らし向きと正の相関(男女ともに統計的有意)
なのである.
つまり簡単に言うと,
生徒本人に大卒希望が無くて裕福な家庭程,家庭教師をつけている
ということになるわけである.
それで結果的に
家庭教師をつけても進学実績に無関係または負の相関
となるわけである(こちらは統計的有意でないが).
次に通信教育であるが
続く.
(過去記事1)