言語テストの研究で重要な概念に妥当性 (validity) と信頼性 (reliability) があります。「妥当性」は測定された尺度が測定すべきものを測定しているかを指し、「信頼性」は測定が安定していて正確かを指しています。
具体例として、アウトプット活動で使われる語彙知識である「発表語彙知識」について考えてみましょう。発表語彙は、音声か文字かというモードによって分けることができるため、発表語彙知識には2種類の構成概念があるように想定されます。また、発表語彙知識は、多様性 (lexical diversity; type token ratio, Guiraud index, the measure of textual lexical diversityなど) と洗練性 (lexical sophistication; 詳細はKim et al., 2018などを参照のこと) にも分けられます。
発表語彙知識を測定する方法はいくつか存在します。例えば、(A) 語彙テストを用いて測定する方法 (e.g., Productive Vocabulary Levels Test; Laufer &Nation, 1999; また、日本語訳と頭文字が提示され、それに該当する英語の語彙を
書く方法)、(B) 英作文やスピーチを分析する方法 (e.g., 1分の自己紹介スピーチで得られた発話を書き起こし、どのような語彙が使われているかを分析する方法) があります。
妥当性に関して「ライティングにおける発表語彙知識を測定すること」が目的であるときに、方法Bを使って、口頭での応答問題の発話を分析することは妥当性が低く、他に証拠がない限りは、適切ではないと考えられます。
妥当性と信頼性に関して、方法Bを使って発表語彙知識を分析する際、先生Aが、生徒1には多様性指標のGuiraud indexを用いて、生徒2には洗練性指標の「bigramのMI (mutual information) スコア」を用いるといった方法は、生徒によって測る側面ものが異なってしまい、妥当性が低いことになります。また、測る側面が異なるので、結果も異なり、結果も安定せず、一貫性が低く、評価者内での信頼性が低いことになります (intrarater-reliability)。全生徒の評価の際、先生Aは語彙の洗練性指標、先生Bは語彙の多様性指標を用いてしまうと、評価する先生間で測る側面が異なってしまい、妥当性が低いことになります。また、先生間で測る側面が異なるので、結果の一貫性が低く、評価者間での信頼性 (interrater reliability) が低くなります。妥当性も信頼性も完璧なものはなく、程度問題ですが、低いものは避けた方がよいと考えられます。信頼性と妥当性の概要についてはこちらをご覧ください (信頼性、妥当性の概念に関する歴史的変遷、妥当性概念の展開、言語テスト学会誌20周年記念特別号)。
信頼性を検討する上で最も重要な概念の1つに誤差があります。誤差は測定の結果と真実の間の差であると言えます。受容語彙知識の量を測定する語彙サイズテストを例に考えてみましょう。語彙サイズテストは受験者が何語の語彙を知っているかを測定することを目的とします。学習指導要領では高校卒業までに約5,000語を指導することとなるため、語彙サイズを測定する最も直接的な方法は5,000問のテストを実施することです。しかし、これは受験者と採点者の観点から現実的ではありません。そこで、レベルをいくつか設けます。例えば、1〜1,000語レベルから20語、1,001〜2,000語レベルから20語、2,001〜3,000語レベルから20語…のように、標本抽出を行なう方法があります。多くの語彙サイズテストではこの方法が取られています。しかし、選択式の問題では当て推量で自分の語彙サイズを超えたレベルの語彙問題に回答できてしまう可能性があります。この「自分の語彙サイズ」が真値 (t) であり、観測値 (x) とのズレを「誤差 (e)」と呼びます。数式で表すと、$x = t + e$ と表されます。
真値は直接観察されるものではなく、数字という形を通してのみ推定されます。観測されたスコアと真値のズレである誤差は、真値を上げたり下げたりするランダムな影響源を反映しています。このランダムな誤差をできる限り小さくすることで、より信頼性の高いテストを開発することができると言えます。
上記の説明は1人のスコアについて述べています。大人数の受験者のスコアと真値の誤差を検討する際には、分散 ($σ^2$) を使います。分散は平均からのズレを表し、分散が大きいことは、スコアが散らばっていることを表します。分散の平方根を標準偏差 (SD) と呼びます。データが正規分布に従っている場合、M ± 1SDの間にデータの約68%が含まれ、M ± 2SDの間に約95%のデータが含まれます。分散を使って、真値・観測値・誤差の関係を表すと以下の式が成り立ちます:$σ^2_x = σ^2_t + σ^2_e$。
もし、真値の変動性が良いもので誤差の変動性が悪いものであれば、良い測定が行われた場合は、得られたスコアの分散には誤差の分散よりも真値の分散の方がより多く含まれます。つまり、観測値に幅が出てくるのは、ランダムな違いではなく、個人が測定された構成概念においてそれぞれ異なるためです (例:語彙サイズの大きい受験者もいれば、語彙サイズの小さい受験者もいる)。このことから、観測値の分散に対する真の分散の割合である$\frac{σ_t^2}{σ_t^2+σ_e^2}$が信頼性 ($r_{xy}$) と定義され、0から1の値をとります。信頼性係数が0の場合、観測値の分散が完全にランダムであり、構成概念に基づいた個人のスコアは全く反映されていません。一方、信頼性係数が1に近いほど、観測値の変動性は真の値の変動性に起因します。
信頼性係数である $r_{xy}$ 以外にも、一般化可能性理論に基づいた信頼性の指標があります。測定の信頼性は$σ_e$で表される誤差の少なさを示すと考えることができます。この誤差分散の平方根 (測定の標準誤差:$σ_{meas}$) は個人の真のスコアが変化しない場合に、測定の機会に応じて観測値がどの程度変化する可能性があるかを推定することで、観測値の不確実性を検討することができます。古典的テスト理論では誤差の発生要因を単一のものとして扱っていましたが、誤差が発生する要因はいくつか存在します (例:設問の違い、評価者の違い)。その複数ある誤差の要因を別々に推定できるようにしたのが一般化可能性理論です。
誤差分散の発生成分に応じて、誤差を検証する方法が一般化可能性理論です。この測定の条件はファセット (facet) と呼ばれます。例えば、スピーキングにおける発表語彙知識を測定する場合、メッセージに対して反応するタスクと自分の意見を述べるタスクでは用いられる語彙が異なります。そのため、タスクが誤差の発生成分であり、タスクはファセットと言えます。さらに、メッセージへの反応タスクでも、そのテスト項目内容によっては用いられる語彙や困難度が異なるでしょう。そのため、テスト項目もファセットとなります。一般化可能性理論という分析方法の名前は「測定上限ごとに観測スコアを一般化するためには、観測スコアの変動性に影響を与えるであろう測定条件を顕在的に明らかにし検証する必要がある」という考えに由来しています。
一般化可能性理論と古典的テスト理論はいずれも、観測されたスコアの変動性が真値の変動性と誤差の変動性の合計であると仮定しています。古典的テスト理論ではファセットに起因する誤差をひとまとめにしている一方、一般化可能性理論は誤差分散源をいくつかのファセットに見出しています。
ライティングテストを例として考えてみましょう。Q1. “Some people say that going on a group tour is better than traveling alone. What do you think about that?” Q2. “Today, many Japanese people work in foreign countries. Do you think the number of these people will increase in the future?” のような2つのトピックに対して、受験者が作文したとします。英作文の採点は2人の先生で6点満点で採点するとします。
受験者 | 項目 | 採点者 | 得点 |
---|---|---|---|
A | Q1 | A先生 | 4 |
A | Q2 | A先生 | 3 |
A | Q1 | B先生 | 5 |
A | Q2 | B先生 | 3 |
B | Q1 | A先生 | 6 |
B | Q2 | A先生 | 5 |
B | Q1 | B先生 | 5 |
B | Q2 | B先生 | 3 |
… | … | … | … |
分散成分を推定する能力は、データ収集デザインの性質によって決まります。つまり、観測される得点を変動させる測定条件としては何が考えられるかを検討することとなります。変動性を生じさせる要因としては、受験者本人のライティング能力です。英作文問題の目的は受験者のライティング能力を測定することであるため、受験者の能力にバラつきがあることは望ましいと言えます。このファセットはp (people or person) と呼びます。得点が変動する要因として採点者も考えられますが、採点者 (rater) によって得点が変化するのは望ましくありません。このファセットはr (rater) と呼びます。また、採点者が自分のクラス受験者の得点を高く採点する可能性も考えられます。このpとrの交互作用のファセットも望ましくありません。そして、受験者によってはQ1の方が回答しやすく、Q2は回答が難しいと捉えることもあります。項目の特徴 (item) もファセットと言えるでしょう。このiもpおよびrと交互作用が考えられます。