テストの設問の数

今回は極めてマニアックなネタを極力万人向けに書くことを目的に書きます。（といっても、テーマが既にマニアックですが・・・）。

テーマは「テストの設問の数」

我々テスト会社がクライエントである州政府にテクニカルレポートを作成＆提出する場合、州政府から求められた基本的な情報（例：テストの概要、テストを作るために必要なルール、テスト結果など）はもちろん盛り込まれますが、それだけでは何も発展しません。

テスト会社もそれなりの競争があるので、州政府からお願いされた情報以外にも、こちらから自主的にレポートを見る州政府や学校関係者の人たちにとって有意義な情報を追加し、彼らとの良好な関係を保とうと、必死にレポートを作成します。

現在、うちの会社が追加情報として、会議で話し合いがされ、追加することに決まった事項が、

テストの設問（＝問題）の数がＰｙｓｃｈｏｍｅｔｒｉｃな観点（つまり専門家の視点ですが）から見て、妥当な（または十分な）数であるかどうかを分析し、専門的な根拠を付け加えて提言をする。

実は、テストを作る時、我々テスト会社のテスト作成の人たち（うちの会社では「Ｔｅｓｔ　Ｄｅｖｅｌｏｐｍｅｎｔ　Ｄｉｖｉｓｉｏｎ」と呼ばれています）と各州政府の人と学校関係者で行われ、作られたテストが実施され、テスト結果を分析するのがＰｙｓｃｈｏｍｅｔｒｉｃ　Ｄｉｖｉｓｉｏｎのリサーチャーである我々が行う、そういう流れですが、

テストの問題を作るプロセスで、我々Ｐｓｙｃｈｏｍｅｔｉｒｉｃ　Ｄｅｖｉｓｉｏｎの意見はあまり考慮されていない

という事実が実はあり、テストの設問の数は、過去の分析結果は考慮されるものの、Ｍｅａｓｕｒｅｍｅｎｔの専門知識に基づいたものではないことが多いのです。

それ故、テストが作成される際、読解力のセクションの設問を８個か９個にするのかなどは、Ｍｅａｓｕｒｅｍｅｎｔの専門的な根拠以外の理由で決められています。

ここが、仕事が細分化されたアメリカらしい問題で、ミーティングで話し合いの場はあるものの、違う分野の人たちはフィールド外の話しは全く知らないので、Ｔｅｓｔ　Ｄｅｖｅｌｏｐｍｅｎｔの人たちには普通でも、我々Ｐｓｙｃｈｏｍｅｔｉｒｉｃ　Ｄｅｖｉｓｉｏｎではあり得ないような根拠が議論されていることも多々あります。

というわけで、このテストの問題の数。これが実は、専門的には極めて厄介なプロセスを経て成り立っているので、これはＰｓｙｃｈｏｍｅｔｉｒｉｃ　Ｄｉｖｉｓｉｏｎでは今後研究される必要があります。

以前話した、「アメリカのテストにおける各設問は、一つの能力を測ろうとしている（つまり、Ｕｎｉｄｉｍｅｎｓｉｏｎａｌである）」。これが実は根拠の一つで、

例えば、設問の数を５つが良いのか、８つくらいは必要なのか？は我々が分析した「Ｒｅｌｉａｂｉｌｉｔｙ」という数字で決定されます。

難しい統計学、またはＭｅａｓｕｒｅｍｅｎｔの数学的な話し（数式や専門用語など）は避けて、極力分かり易く言うと、

一般的に設問の数は多い方がこのＲｅｌｉａｂｉｌｉｔｙの数が高まる

そして、

このＲｅｌｉａｂｉｌｉｔｙの数値が高ければ高いほど、その設問がＵｎｉｄｉｍｅｎｓｉｏｎａｌである、つまりテストで測ろうとしている一つの能力を正確に測っている

という分析です。

理想でしかありませんが、テストは設問の数が少ない方が良いわけです（その方が時間や手間暇が軽減されるので）・・・が、では「各設問の数を２，３個で良いのか？」というとそんな訳にはいきません。

設問の数が少ない・・・・・・ということはそれだけ（実力ではなく、まぐれでたまたま正解した・・といった）エラーが発生します。

むかーしのブログふれたことですが、５０点取る実力の生徒が５５点取った時、それは５点分のエラーが発生した、ということであり、我々専門家は５０点の実力の生徒が常に５０点取るようなテストを作る（つまりエラーなし）のが目的です。

それため、このＲｅｌｉａｂｉｌｉｔｙという数値を計算し、分析することによって、

一体、テストで何問設問を設ければ、我々が目標とする少ないエラーで、測ろうとしている能力を正確に測っているテスト結果が得られるのか？

または、各テストは、あるテーマに従ってセクション別（例：国語のテストで１．語彙力を測るセクション、２．文脈力を測るセクション、３．読解力を測るセクション・・・・など）に分けられているので、

各セクションだけのＲｅｌｉａｂｉｌｉｔｙを分析することで、各セクションにある全ての設問が、測ろうとしている一つの能力（＝Ｕｎｉｄｉｍｅｎｓｉｏｎａｌ）を正確に測れているかどうか？

ということが、（専門的には）分かるのです（といっても、本当か？というと、専門的に証明されている・・・としかここでは言い様がありませんが・・・）。

私の勤めるテスト会社で今回追加しようとしているのが、このＲｅｌｉａｂｉｌｉｔｙの数値を分析＆報告することによって、「各テストの設問の数、またはテストにある各セクションごとの設問の数が一体いくつ必要なのか？」ということを理解してもらうことです。

多すぎてもダメ（実際、ある程度の数を超えると、このＲｅｌｉａｂｉｌｉｔｙの数はほとんど変化せず、増やしても意味がなくなります）、少なく過ぎてもダメ、という話しで、２００８年のテスト結果を基に、妥当な設問の数を分かり易くレポートしよう、という話しで、今我々Ｐｓｙｃｈｏｍｅｔｉｒｉｃ　Ｄｉｖｉｓｉｏｎの人たちが、分析に取りかかっています。

ということで、今後、このＲｅｌｉａｂｉｌｉｔｙとは何なのか、ということを分かり易く説明しながら、アメリカで作成されているテストの中身、そしてＰｓｙｃｈｏｍｅｔｉｒｉｃｉａｎの仕事内容をお伝えする予定です。