語彙知識を測定するテスト形式の1つに、提示された語を知っているかをYes Noで回答するYesNo語彙テストがある。全ての目標語にYesと回答して満点になることを防ぐ方法として、目標語に非単語を含んでいる。YesNo語彙テストの合計点の採点方法には$I_{SDT}$や$Δm$などが提唱されているが、これらは古典的テスト理論の枠組みで合計点として扱われる指標であった。項目レベルでの潜在変数を仮定するitem response theoryを用いてYesNo語彙テストを分析した先行研究では、実在語のみ、あるいは非単語のみに対して個別にラッシュモデルを適用していたり (Stubbe, 2012)、実在語にYesと回答する能力 (Hit) と非単語にNoと判断する能力 (Correct Rejection) を同じ能力として扱っていた (Vitta & Nicklin, 2022; Vitta et al., 2023)。
本研究では採点方法を1つのモデルに含め、YesNo語彙テストにおける項目レベルの採点方法について、信号検知理論に基づいて比較を試みた。99名の大学生 (CEFR A2レベル) がAcademic Word Listから抽出された180項目 (うち108項目が実在語、72項目が非単語:受験者に割合は知らされない) に対して、知っていればYes、知らなければNoと回答するYesNo語彙テストに取り組んだ。そこで、Scoring 1 (Hitに1点、Correct Rejection・Miss・False Alarmに0点)、Scoring 2 (Hitに1点、Correct Rejectionに1点、MissとFalse Alarmに0点)、Scoring 3 (Hitに2点、Correct Rejectionに1点、MissとFalse Alarmに0点)、Scoring 4 (Hitに2点、Correct Rejectionに1点、Missに1点、False Alarmに0点)、Scoring 5 (Hitに3点、Correct Rejectionに2点、Missに1点、False Alarmに0点) の5つの採点結果を比較した。分析ではBürkner (2021) に基づき、受験者と項目の事前分布に平均0、分散3の正規分布を用いた2値ロジスティック回帰および隣接ロジスティック回帰による項目応答理論を採点ごとに実施した。
主な結果は以下の通り:
YesNo語彙テストの基本的な問題は、受験者のYes反応が必ずしも語彙知識だけを反映しない点にある。提示された語にYesと答える行動には、実際にその語を知っていることに加えて、見覚えがある、語形が英語らしい、推測でYesを選ぶ、あるいは自信が低くてもYesを押しやすいといった反応傾向が混在する。したがって、実在語へのYes反応だけを得点化すると、語彙知識と反応バイアスを分離できない。
この問題に対処するため、YesNo語彙テストでは実在語だけでなく非単語を含める。信号検知理論 (signal detection theory; SDT) の枠組みでは、実在語をsignal、非単語をnoiseとして扱う。受験者の反応は次の4種類に分類される。
ここで重要なのは、Hitが多い受験者が必ずしも高い語彙能力を持つとは限らないことである。Hitが多くてもFalse Alarmも多い場合、その受験者は実在語と非単語を正確に弁別しているというより、全体としてYesを選びやすいだけかもしれない。反対に、False Alarmが少ない受験者は慎重な判断をしている可能性があるが、慎重すぎる場合には実在語にもNoと答え、Hitが低くなる可能性がある。
SDTでは、Yes/No反応を少なくとも2つの成分に分けて解釈する。
1つ目は識別力、すなわち実在語と非単語をどれだけ弁別できるかである。語彙テストの文脈では、これは受験者が語彙項目をどれだけ正確に認識できるかに対応する。代表的な指標には$d'$や$A'$がある。$A'$は非パラメトリックな感度指標として扱われることが多く、0.5でチャンスレベル、1に近いほど高い識別力を意味する。
2つ目は反応バイアス、すなわちYesとNoのどちらを選びやすいかである。代表的な指標には$c$、$\beta$、$B''$、$B''D$などがある。語彙テストでは、Yes寄りの反応バイアスを持つ受験者はFalse Alarmを多く出しやすく、No寄りの反応バイアスを持つ受験者はMissを多く出しやすい。
この区別により、YesNo語彙テストの成績は「どれだけ語を知っているか」だけでなく、「どのような反応方略でテストに取り組んでいるか」も含むものとして解釈できる。
YesNo語彙テストでは、Hit rateを$h$、False Alarm rateを$f$として、$\Delta m$や$I_{SDT}$のような補正済みスコアが提案されてきた。これらの指標は、非単語へのYes反応を利用して、単純なHit数だけでは過大評価される語彙知識を補正しようとするものである。