本日は第4章前半について概略する。目次は以下のとおりである。

 

4 CEFRJ-RLD資料に基づくテスト・タスク作成

 

Q22 CEFRJ テスト・タスク開発プロジェクトはどのように進められたか?

Q23 CEFRJ に基づくスピーキング・テスト(やり取り)はどのように作成したらよいか?

Q24 CEFRJ に基づくスピーキング・テスト(発表)はどのように作成したらよいか?

Q25 スピーキングの自動採点技術はどの程度進んでいるか?

 

まず、テスト・タスクの作り方について、基本的な考え方は、本書巻末にも記載されている CAN-DOディスクリプタに基づいて作成することにある。そうすれば、「それぞれのテスト項目の回答の成否がそおCAN-DOディスクリプタのレベルへの到達の有無を表す」ことになるからだ。

 

受容技能に関しては、ディスクリプタを参照してテキスト・タイプを決め、「そのテキスト・タイプの特徴をよく羽石田テキスト作りが必要」となる。リスニング・テストにおける聞く回数は、「その状況で実際に聞く回数を前提とする」。テキストの難易度は、語彙、文法、文の長さ、構造の複雑性によるが、テストの難易度は、それとタスクとの関連で決まる。

 

受容技能のタスクのほうが作るのが難しいと考えられる。理由は、ディスクリプタは「理解する」とだけ書かれているので、何を以て理解したことにするのかはテスト・タスク問題の作成者が考えなければならないからである。考えられる方法は、「そのテキストを読んだり、聞いたりした場合に、現実の生活で行うようなタスクの設定が可能かどうかをまずは検討する必要がある」。つまり、「支持を読んで、行うべき『行動』を複数の絵の中から選択する、というようなテスト・タスクが考えられる」。タスクをテスト場面にそのまま落とし込みにくい場合に、「多肢選択式の」伝統的な内容理解問題になることもありうる。

 

発表技能のタスクのほうは、ディスクリプタが「できる」となっているので、容易である。ディスクリプタに具体(目的・場面・状況)を当てはめていく。「やりとり」に関しては、非常によい事例が乗っているので参考にしたい。また、その評価には、分析的尺度と全体的尺度という2つの方法が考えられるが、全体的尺度で評価する方法が示されている。この評価基準とてもよい事例だと自分は考えられる。最後に、テスト・タスクの妥当性であるが、これについては、参考図書が示されている。「発表」に関しても、よい事例を参考にしたい。評価は、「回答で触れられている事柄を単純にカウントし、必要な項目数を満たしているか」を基準とする。

 

スピーキングの自動採点技術には複数の方法が採用されており、AIと人間の評価の間には、若干の誤差はありうる。誤差が小さいのは、テキスト文の読み上げ、正解の選択肢の読み上げなどである。文を生成した場合の採点は、「適切なキーワードが含まれているか」を見る。自由回答については、「発生の流暢さや発話の分量、語彙の豊富さや構文の正しさ」が評価の対象となるが、認識するのが難しいため、音声認識を用いずに評価スコアを推定することもできる。「例えば発生の流暢さは、単純に指定時間内で実際に発生が行われた時間の割合を評価するだけでも、人手による採点スコアと一定の相関を得ることができる。また、語彙の豊富さや構文の正しさなども発声の流暢さと相関がある」。このように、自由回答のスピーキングの採点はまだ研究の余地が残されている。