生徒の学力の伸びを測定する分析方法・Student Growth Percentileを用いた教員評価方法の問題点を指摘したブログについて。

An Update on New Jersey's SGPs: Year2 - Still not Valid!

Deconstructing Misinformation on Student Growth Percentiles & Teacher Evaluation in New Jersey

定期的にお伝えしている、私の最も大好きなBruce Baker先生のブログ(データ分析を用いて、アメリカの教育政策、とりわけ教育予算が正しく実施されているかを分析するのが専門)からで、今日のテーマは、

学力の伸びを測定する分析方法・Student Growth Percentile(SGP)を用いた教員評価を行うと、エラーが発生し、公平な評価ができていない

ということで、統計学に説明したものを、私のこのブログでできるだけ分り易く説明&紹介したいと思います。

まず、説明する前に、

<Student Growth Percentileとは?>


Student Growth Percentile(SGP)ですが、これは(以前何度か説明したことがありますが、このネタ久々なので、おさらいの意味も含めてお伝えすると)

学力の伸びを測る最初の段階(つまり最初のテスト)で獲得したスコアーの生徒だけを集めて、再度(0から100までに)序列化した分析方法

言葉で説明すると分かり難いので、具体的に言うと、

ある生徒が、初めに300満点のテストで150点取ったとする

二回目のテストを受け、200点ならば学力の伸びは50点

SGPの分析方法では、一回目に150点を取った生徒だけを集め、150点を取った生徒だけで、どれくらいのスコアーが伸びたか(又は下がったか)0から100までの数値内で測定&計算する

というもの。これでも少し分かり難いかもしれないので、より分り易く言うと、例えば、

1000人中、100人が一回目に150点なら、この100人の生徒だけを抽出し、この100人の生徒の2回目のテストの伸び(又は下がったスコアー)を計算します。もし、この100人の生徒の中で2回目のテストが201点かそれ以上(つまり、学力の伸びが51点かそれ以上)の生徒が50人いたら、2回目のテストが200点で学力アップが50点の生徒のSGPは、50(丁度真ん中)となり、この50がSGPです。

このSGPの特徴は、1回目のテストが50点の人(つまり、比較的学力の低い生徒)が2回目で100点で学力の伸びが50点としても、学力の低い人の50点アップと、一回目のスコアーが200点から250点にアップしたこの゛50”は、同じ50点でも意味が違うので、SGPはある意味公平で分り易く、数多くの州政府などで採用されている、最も一般的な分析方法です。

<SGPの問題点>

問題は、

SGPを教員評価に用いると、エラーが生じる

というもの。紹介しているブログでは、このSGPを使った教員評価をニュージャージー州政府(NJ)が行おうとしていて、それを批判していますが、このNJのSGPの用い方が問題で、

SGPを複数年度(2学年かそれ以上)用いると、SGPでは測定できない要因が(単一年度よりも)多く学力に影響を及ぼす

というもの。当たり前ですが、学力の伸びは、貧困レベルが低い(つまり裕福な家庭)とか元々賢い生徒の方が(元々学力の低い生徒より)伸びが良ければ、先生の力量より、どんな生徒を担当するか?のが重要になり、教員評価だと、(貧困レベルの高い生徒や元々学力の低い生徒を教える先生と、そうでない先生とでは不公平になります。

結局は先生の力量が関係なくなるので、これが公平な許筠評価とはいえないのでは?ということになります。で、今回はそれをニュージャージー州の実際のデータで見てみたいと思います。

<ニュージャージー州のSGP結果>

これから見るデータのポイントですが、上記に説明したポイントを踏まえた上で、

1.単一年度のSGPのデータと、2年分のSGPのデータを比較する

2.生徒の学力の伸び(SGP)が以下の2つの要因で違いがあるかどうか?

貧困レベル(←アメリカでは毎度お馴染みの昼食が無料である生徒が最も貧困レベルが高いので、データ分析では、この無料昼食の生徒の割合で分析)

生徒の元々の学力 ←Proficiency(習熟)レベルに達している生徒の割合が高ければ高い程、担当生徒が元々賢い(学力が高い)生徒が多い

これですが、分り易く説明すると、

もし1年分の学力の伸び(SPG)より、2年間分の学力の伸びの方が貧困レベルや生徒の元々の学力の高さに影響を受けていれば、貧困レベルや生徒の元々の学力の数値と関連性(Correlation)が高くなる

ということで、以下がその分析結果です。
SGP_Table

一見分かり難い結果なんですが、Math SGPは数学の学力の伸び、LA SGPは英語(LAはLanguage Artsの略)の学力の伸びで、Year1は1年目でYear2は2年目、2yr Avgは2年間の学力の伸びの平均です。

表の左欄は、%Proficiencyが各先生が担当した生徒の学力の高さで、% Free Lunchが無料昼食を示しています。

数値(つまりCorrelation:関連性がどれだけあるか?という数値ですが)が高ければ高い程関連性が高いのですが、当たり前ですが、英語のSGPと数学のSGP、又は英語の1年目のSGPと2年目のSGPの関連性が一番高い(表の左から2番目の欄で、0.6224と0.6137)のは当たり前ですが、ポイントは、

1.学力レベルとの関係

単一年度(学力の伸びの1年目&2年目)を2年分の平均(表でいう2yr Avg)にすると、英語、数学共に指導する生徒の元々の学力レベルの影響力が増す

(英語では単一年度のSGPと学力レベルの数値は0.50-0.58くらいですが、2年分の平均にすると、0.61&0.63で明らかに数値が上)

(数学はややましで、単一年度では0.3-0.54くらいの数値ですが、2年分の平均にすると、0.44&0.528でやや高め)


つまり、学力の伸びのデータを複数年で教員評価に使用すると、(単一年度より)エラーが増す(特に英語)

2.貧困レベルとの関係(表の一番最後の赤色の数値)

(学力レベル同様)数学の単一年度(-0.37&-0.31)が2年分の平均では-0.38、英語は-0.48&-0.555が、2年分の平均にすると-0.578に上昇

これまた、貧困レベルが2年分の学力の伸びに影響を及ぼし、教員評価のエラーが増す

というわけで、(表の結果を理解するの難しいかも知れませんが、今回は説明がかなり複雑なのはすみません・・・)要は、

学力の伸び:SGPを複数年度で用いて教員評価を行うと、教える生徒の学力が高いほうが教員評価は有利で、貧困レベルが高ければ高いほど、評価される教員は困る・・・・

言い換えると、

教える生徒の学力の違いや貧困レベルが考慮されない、不公平な教員評価!!

ということで、紹介しているBaker先生、ニュージャージー州の教員評価システムを批判しています。

<総論>

今日のブログ、統計学を理解している人には分かり易いのですが、そうでない人にはわかりにくかったかもしれません・・・・・・・が、要するに

学力の伸びを複数年度で使用すると、貧困レベルや教える生徒の元々の学力の高さに影響が多く受けて、教員評価にSGPは容易く用いるのは統計学上問題あり


というのが、趣旨です。

アメリカでは、このSGPを教員評価に用いようっていう州政府がどんどん出てきていて、統計学上のエラーをどう対処するか・・・という議論が教員評価システムの実施に追いついていません・・・。

教員評価自体は私も賛成の立場ですが、これはあくまで

適切&公平な分析方法が確立されている

という大前提の話しなので、ニュージャージー州の教員は気の毒に・・・と思ってしまいました。