今回は極めてマニアックなネタを極力万人向けに書くことを目的に書きます。(といっても、テーマが既にマニアックですが・・・)。


テーマは「テストの設問の数


我々テスト会社がクライエントである州政府にテクニカルレポートを作成&提出する場合、州政府から求められた基本的な情報(例:テストの概要、テストを作るために必要なルール、テスト結果など)はもちろん盛り込まれますが、それだけでは何も発展しません。


テスト会社もそれなりの競争があるので、州政府からお願いされた情報以外にも、こちらから自主的にレポートを見る州政府や学校関係者の人たちにとって有意義な情報を追加し、彼らとの良好な関係を保とうと、必死にレポートを作成します。


現在、うちの会社が追加情報として、会議で話し合いがされ、追加することに決まった事項が、


テストの設問(=問題)の数がPyschometricな観点(つまり専門家の視点ですが)から見て、妥当な(または十分な)数であるかどうかを分析し、専門的な根拠を付け加えて提言をする。


実は、テストを作る時、我々テスト会社のテスト作成の人たち(うちの会社では「Test Development Division」と呼ばれています)と各州政府の人と学校関係者で行われ、作られたテストが実施され、テスト結果を分析するのがPyschometric Divisionのリサーチャーである我々が行う、そういう流れですが、


テストの問題を作るプロセスで、我々Psychometiric Devisionの意見はあまり考慮されていない


という事実が実はあり、テストの設問の数は、過去の分析結果は考慮されるものの、Measurementの専門知識に基づいたものではないことが多いのです。


それ故、テストが作成される際、読解力のセクションの設問を8個か9個にするのかなどは、Measurementの専門的な根拠以外の理由で決められています。


ここが、仕事が細分化されたアメリカらしい問題で、ミーティングで話し合いの場はあるものの、違う分野の人たちはフィールド外の話しは全く知らないので、Test Developmentの人たちには普通でも、我々Psychometiric Devisionではあり得ないような根拠が議論されていることも多々あります。


というわけで、このテストの問題の数。これが実は、専門的には極めて厄介なプロセスを経て成り立っているので、これはPsychometiric Divisionでは今後研究される必要があります


以前話した、「アメリカのテストにおける各設問は、一つの能力を測ろうとしている(つまり、Unidimensionalである)」。これが実は根拠の一つで、


例えば、設問の数を5つが良いのか、8つくらいは必要なのか?は我々が分析した「Reliability」という数字で決定されます。


難しい統計学、またはMeasurementの数学的な話し(数式や専門用語など)は避けて、極力分かり易く言うと、


一般的に設問の数は多い方がこのReliabilityの数が高まる


そして、


このReliabilityの数値が高ければ高いほど、その設問がUnidimensionalである、つまりテストで測ろうとしている一つの能力を正確に測っている


という分析です。


理想でしかありませんが、テストは設問の数が少ない方が良いわけです(その方が時間や手間暇が軽減されるので)・・・が、では「各設問の数を2,3個で良いのか?」というとそんな訳にはいきません。


設問の数が少ない・・・・・・ということはそれだけ(実力ではなく、まぐれでたまたま正解した・・といった)エラーが発生します


むかーしのブログふれたことですが、50点取る実力の生徒が55点取った時、それは5点分のエラーが発生した、ということであり、我々専門家は50点の実力の生徒が常に50点取るようなテストを作る(つまりエラーなし)のが目的です。


それため、このReliabilityという数値を計算し、分析することによって、


一体、テストで何問設問を設ければ、我々が目標とする少ないエラーで、測ろうとしている能力を正確に測っているテスト結果が得られるのか?


または、各テストは、あるテーマに従ってセクション別(例:国語のテストで1.語彙力を測るセクション、2.文脈力を測るセクション、3.読解力を測るセクション・・・・など)に分けられているので、


各セクションだけのReliabilityを分析することで、各セクションにある全ての設問が、測ろうとしている一つの能力(=Unidimensional)を正確に測れているかどうか?


ということが、(専門的には)分かるのです(といっても、本当か?というと、専門的に証明されている・・・としかここでは言い様がありませんが・・・)。


私の勤めるテスト会社で今回追加しようとしているのが、このReliabilityの数値を分析&報告することによって、「各テストの設問の数、またはテストにある各セクションごとの設問の数が一体いくつ必要なのか?」ということを理解してもらうことです。


多すぎてもダメ(実際、ある程度の数を超えると、このReliabilityの数はほとんど変化せず、増やしても意味がなくなります)、少なく過ぎてもダメ、という話しで、2008年のテスト結果を基に、妥当な設問の数を分かり易くレポートしよう、という話しで、今我々Psychometiric Divisionの人たちが、分析に取りかかっています。


ということで、今後、このReliabilityとは何なのか、ということを分かり易く説明しながら、アメリカで作成されているテストの中身、そしてPsychometiricianの仕事内容をお伝えする予定です。