(過去記事1)の続き
R4偏差値の研究は前回でほぼ結論が出た感じ。
R3をR4と詐称している。
今回は単なるグチ。
今日(2024.4.18)玄人思考さんのブログでもコメント書いたのですが、まだ消化しきれてないので。
玄人思考さんは悪く無いのに、私が絡んで行ったみたいで迷惑に思われちゃったかもしれない。御免なさい。
データが少ないとかは言い訳にならないし、合格率が局所的に逆転するのも問題ないのです。
データが少なくても
合格者不合格者それぞれ1名以上でもいれば、
ロジスティック近似行って、とりあえずの
a (合格率50%の偏差値)
と
b (合格率曲線の最大傾き)
は出ます。
a,bから
任意の合格率に対応する偏差値が計算できます。
aが昨年度の値ととんでもなく離れていたり、
bがほぼゼロになっていたり、逆にほぼ無限大
とか、そんなこともあるかもしれません。
そんな時は受験者数も付記しておけば
納得です。
データの数を見てa,bの信頼度を読み手が推察すれば良い。
最小二乗法でやるなら相関係数という近似曲線とデータとの誤差の総和からでる値が出る。それも付記すれば近似精度が、わかります。
近似精度の値で、そのa,bや推定偏差値の信頼度も分かります。
実際の合格率が単調増加になってなくて大小が逆転してるとかは問題ではありません。
その時は近似精度の数値に現れてきます。
各偏差値に対する実際の合格率と近似曲線が示す推定合格率が乖離していても問題ないです。近似精度の値に現れます。
しかし、
各偏差値に対する実際の合格率と近似曲線が示す推定合格率の大小関係が常に一定方向というのがおかしいのです。
計算上それは起こらないはずです。
各偏差値帯で、実際の合格率が(曲線が示す)推定合格率より常に悪いのです。
これはありえません。
さすがに最難関校は受験生数が多いので信頼できるa,bが求まります。R4をR3と読み替えるとR3としての信頼できる偏差値になるのです。
R4が、崖っぷち、というのは本来のR3の性質をうまく持っていると言うことです。
つまり近似精度の良いa,bが算出できてるのです。最後のステップでR3をR4と発表してしまったところに間違いがあるのです。
別の見方をすると、日能研は生データに近いものを塾生だけには提供しているので、嘘がバレるようにしてる分だけ、可愛らしいともいえます。あるいは一部誠実な人が日能研の中にいると言うことか。
玄人思考さんが経験したと言う方法、
つまり、ロジスティック近似使わずに
その偏差値x 以上の人全体で合格率80%になるようなxをみつけて公表するという方法。それ自体が統計的に無意味なのです。(過去記事2)(1)で説明したように。成績分布は毎年違うでしょうから、そんな方法とってたら年毎にブレてくるのは当たり前です。
地域に上位ライバル校がいない最難関校ほど毎年ブレが大きいはずです。
そんな方法では信用に値する数値は出ません。(まあ悪いのは玄人思考さんなくてその勤務先大手塾の上の人なんでしょうが)
ビッグデータを持ってる企業は強いです、生データを隠されたら嘘をつかれても一般人はそれを暴くすべがありません。
例えば、東大前期試験の各類の偏差値を四大予備校が発表してますが、
理3と理1の偏差値の差が3つの予備校は4-5なのに、駿台だけ10あるんですよね。
各予備校で母集団レベルが違うから偏差値の絶対値が異なるのは不自然じゃ無いです。でも相対的な差が2倍以上も違うんですね。理三は三百人受けて百人受かってる。
どうなんですかね。
(過去記事1)
(過去記事2)