回帰分析について、基本的には学費が安ければ偏差値が高いということをベースにしています。これで50%くらいは説明できました。
Adjusted R²(自由度調整済み決定係数)を80%ほどにするためにダミー変数の組み合わせをさまざまに変更して、より良い回帰分析モデルを作っています。
より良いの基準は、Adjusted R²です。
今回、2025年5月発表の河合塾偏差値を、組み込もうと考えました。
本来、平均を取るのはおかしな話なのです。
けれども、医学部は受験者数が数万単位ではないので、統計的に有意かどうか怪しいのです。
河合塾の金沢医大が変とか、駿台の北里大が変とか、そういうことになるわけです。
塾側はしっかりデータから算出していると思いますが。
さて、河合塾の偏差値は2.5刻みと、大学ごとの差が出にくいため、駿台偏差値との平均を、実測偏差値として計算することとします。「河・駿平均偏差値」という名前にしています。
この平均という行為は、受験者が完全に被っているのならいいのですがね。それを承知で、駿台偏差値だけでは、受験者数が統計学的に少ないことによる偏りが出てしまうことを補正する意味で、河合塾偏差値との平均を取ることにします。
これと予測偏差値との差の絶対値が3以内(できれば1以内)になる大学の数を最大化しつつ、Adjusted R²(自由度調整済み決定係数)を前回モデルの0.84より大きくすることを今回の目的とします。
より良いモデルができた時には、次の記事で紹介し、藤田医大の学費下げに伴う偏差値予想を更新しようと思います。
分析方針
- 基本データセット: 全31大学を対象。
- 自治医科大学の学費は0円に修正。地域枠ダミー変数を別途準備している。
- 東北医科薬科大学の学費は500万円に修正。来年度は奨学金がなくなると小耳にはさんだので、ここの変更が必要と考えている。
- 偏差値は「河・駿平均偏差値」を使用。
- ダミー変数の再評価:
- 「奨学金国立並み・地域枠ダミー (奨国地D)」は、自治医科大学と東北医科薬科大学を対象とします。自治医科大学が分析対象に含まれることで、このダミー変数の効果がより明確に評価される可能性があります。
- その他、これまで検討してきた全てのダミー変数(地域、歴史/ブランド、大学特性など)について、31大学全体のデータに基づき、モデルへの貢献度を再評価します。
- モデル探索:
- 学費、学費の2乗項(場合により3乗以上も検討)、上記の全てのダミー変数の様々な組み合わせ、および主要な学費との交互作用項を含む広範なモデルを構築します。
- この過程で、統計的に寄与の小さい変数や多重共線性の原因となる変数を整理し、モデルを簡略化・安定化させます。
- 最適な外れ値処理:
- 絞り込まれたモデル構造に対し、残差の絶対値が大きい大学を段階的に追加で除外し、Adjusted R²が最大となるパターンを探します。この際、自治医科大学も他の大学と同様に、モデルの当てはまりを改善するための除外候補の一つとして扱われます。
- 評価基準:
- Adjusted R²(自由度調整済み決定係数)を0.84より大きくすること。
- 外れ値として除外する大学の数を極力減らすこと。
- 予測偏差値と実測偏差値の差の絶対値が3以内(できれば1以内)になる大学の数を最大化すること。