思ったこと,考えたことのメモ

英語を教えたり、英語教育の研究をしたり

Ch.1 Shohamy, E. (2001). The power of Tests: A critical perspective on the uses of language tests. の読書メモ

 

以下の本を読みながらのまとめメモ

 

 

Ch.1はUse-oriented testという章で、直訳すれば「使用志向のテスト」といった感じ。

以下、内容に関するメモ。正確な訳ではないので、本文を参照することをおすすめする。

 

伝統的なテスティング

 

伝統的なテスティングは、科学的な分野であり、明確な境界や規準が存在する。分野には、定義づけられた知識の体系が存在する。分野の主要な目的は、テストが測定しようとするものを正確に測定するための質の高いテストを作成することである。テストの結果は、受験者同士を比較したり、熟達度分けをしたり、評定を割り当てたり、選別に使用される。したがって、テストは心理測定の科学的なルールにしたがった高品質なものであることが求められる。

 

テスティングは、適切な実施のための厳格な規則と利用に関わる専門分野である。質の高いテストは、テストで測定する知識に関する正確な応答をテスト使用者に提供することが望まれる。質の高いテスト項目とタスクを作成するために、様々な技術が使用され、それらは多くの場合客観的なものである。それらの中には、信頼性 (テストスコアはどれだけ正確か) 、妥当性 (測定したいものがどの程度測定できているか) 、テスト項目とタスクの質を検証する手順 (テスト項目とタスクが、測定したい内容をどの程度測定しているか) といったトピックが含まれている。

 

従来のテストは、多くの場合、信頼性を担保するために、客観的なテスト項目を用いて作成される。一方で、要約やレポート、ロールプレイなどのその他のテストも広く使用されるようになってきており、多くの場合はその正確性に関する忠告も一緒に提示される (Nitko, 1996)。現在広く使用されるポートフォリオや自己/学習者間評価でさえ、客観テストの典型的な基準判断と同様の手順が要求される。そのような手順によって、テストが従来の心理測定の特性を備えていると実証した場合にのみ、従来のテストクラブの正当なメンバーとして受け入れられる。

 

従来のテスティングの主な焦点はテストであり、受験者はテストの品質を検証する手段としてのみ重要とされていた。受験者に言及されるのは、項目難易度や、弁別力、その他項目の良し悪しを示す指標に関する場合である。

 

「良い」や「悪い」は、テスト上のパフォーマンスによって定義される。テスト項目の何が「良い」かや「悪い」かを決めているかが議論されることはほとんどない。たとえば、テスト前の指導が効果的ではなかったのか、マテリアルが難しすぎたのか、マテリアルを教えていたときに受験者が休んでいたのか、または受験者が持っていない認知処理を要求していたのかなどは考慮されない。一般的に、テストが受験者のパフォーマンスに合わせるのではなく、受験者がパフォーマンスをテストに合わせる。

 

従来のテストは、テストの使用に関する問題に興味がなかった。テストが設計され、開発され、実施されて信頼性や妥当性が示されれば、テストをする側の人間の仕事は終わる。心理測定的な結果が満足いくものであれば、タスクはそこで終わる。

 

よって、従来のテスティングは、テスト導入の動機や、テストを使用する意図や理論的根拠について、それらが十分かを検証することに興味がなかった。テストの準備や受験者が何を思うかには興味がなかった。とくに、テスト結果や、テストに成功することや失敗することが受験者にどのような影響を与えるかに興味がなかった。また、テストが知識や学習方法、習慣にどのような影響を与えるかは見過ごされてきた。従来のテスティングは、テストを人々、社会、動機、意図、使用、影響、効果、結果から切り離された独立した出来事であると考えている。

 

使用志向のテスティング

使用志向のテスティングは、テストを教育、社会、政治の文脈に埋め込まれていると考え、テストを行う根拠や、テストが受験者や教育、社会にどのような影響を及ぼすかといった問題を扱う。それらの問題には、テストを受けた受験者に何が起きるのか、テストによって作られた知識、テストに向けて準備をした教師、テストに使われたマテリアルや方法、テスト導入の決定、テスト結果の利用、受験者の親、テストの倫理や公平さ、テストの教育と社会への短期的および長期的な影響を含む。

 

テスト開発者は「完璧な」テストを作成することに忙しく、作成したテストはテスト開発者の意図とは異なる目的のために使用されていることも事実である。特に、テストを非倫理的だと考えられる方法で使用する営利事業、政府機関や組織については注意が必要である。したがって、テストをより広い、使用を含めた様々な視点から検証する必要がある。

 

これまでのテスティングの専門性とは、厳しい基準をクリアする質の高いテストを作成することであった一方で、テストは中立的な道具としてみなすことはできないので、それだけでは不十分であると気づいているテスト開発者もいる。したがって、テストがもつ力と社会の中のテスト使用に関する懸念が出てきている。

 

テスティングの分野では、テストの使用に関する問題は、伝統的なテスティングの分野の範囲外とみなしてきたが、近年はテスティングの新たなトピックとしてみなされるようになった。たとえば、Messick (1981, 1989, 1994, 1996) は、テストはカリキュラム、倫理、社会階級、官僚、政治、知識に影響を与える心理学的、社会的、政治的変数を含んでいるが、それらは認識されておらず、検証もされていないことを主張した。そこで、彼はテストの結果といった側面を広い妥当性の一つの側面とすることを強調した。

 

Gipps (1994) は、この現象をテスティングの純粋な技術的な観点からテスト使用の観点へのシフトであると解釈している。

 

テスティングと同様に、言語テスト分野もテストの社会への影響に興味を持ち出している。Spolsky (1998) は、より信頼性のある測定を行うための言語熟達度の少数の重要な要素に労力を割くよりも、これまでの不正確な測定の使用やその意味に関する研究を支援するべきだと主張した。テストをする側の人間は、テストの免れることのできない不完全さを認め、その使用について目を向けるべきである。

 

結果として、言語テスト研究者は、テストの倫理性や、テストがもつバイアス、指導や学習に対する効果や影響、そしてテスト使用に関するトピックを扱うようになった。さらなるトピックは、言語テストはどの程度言語知識を定義し、人々を分類し、受験者個人の成功や失敗のための基準を明記するかということである。いくつかのトピックは、後続の章で議論する。