Yes/No語彙テスト
- LexTALE (Lexical Test for Advanced Learners of English; Lemhöfer & Broersma, 2012) は心理言語学の分野で開発されたYes/No形式の語彙テスト
- 3〜5分で回答可能
- 10Kレベルの語彙が提示され、その語が実在語かどうかをYes/Noで判定する
- This test consists of about 60 trials, in each of which you will see a string of letters. Your task is to decide whether this is an existing English word or not. If you think it is an existing English word, you clock on “Yes”, and if you think it is not an existing English word, you click on “No”.
If you are sure that the word exists, even though you don’t know its exact meaning, you may still response “Yes”. But if you are not sure it is an existing word, you should respond “No”.
In this experiment, we use British English rather than American English spelling. For example: “realise” instead of “realize”; “colour” instead of “color”, and so on. Please don’t let this confuse you. This experiment is not about detecting such subtle spelling differences anyway.
You have as much time as you like for each decision. This part of the experiment will take about 5 minutes.
- 全部で60項目 (うち40項目が実在語、20項目が非単語:受験者に割合は知らされない)
- Yes/No形式のテストではguessingが大きな問題となる → Meara (1996) はΔm、Huibregtse et al. (2002) は$I_{SDT}$を提唱
- $Δm = (h − f) / (1 − f) − f / h$
In the above formula, h refers to a hit rate (proportion of responding yes to real words), and f refers to a false alarm rate (proportion of responding yes to non-words).
- $I_{SDT} = 1 − (4h (1 − f) − 2 (h − f) (1 + h − f)) / (4h (1 − f) − (h − f) (1 + h − f))$
この計算式は受験者が判断に迷う場合にはYesを選ぶという前提を置いている
- Nakata et al. (2020) ではLexTALEとVocabulary Size Testの相関について、Δmで .31 [.14, .47]、$I_{STD}$で.35 [.18, .50] であることが示された
Nicklin and Vitta (2022) のYes/Noテスト
- Hashimoto and Egbert (2019) で用いられたAcademic Word Listに基づくYes/Noテストを使用
- 全部で180項目 (うち108項目が実在語、72項目が非単語:受験者に割合は知らされない)
- 「知っているかどうかをYes/Noで回答してください」
- 非単語におけるFalse alarm (存在しない非単語に対してYesと回答する) のカットオフポイントは10%
- B1レベル以上の225名 (132名の日本の大学生、93名のサウジアラビアの大学生) は165名へ
- ラッシュモデルではItem difficultyとPerson abilityを推定する際、一般的には最尤推定 (maximum likelihood estimation; MLE) が用いられるが、この推定方法にはいくつか種類がある (WinstepはJMLE)
- conditional maximum likelihood estimation (CMLE): person parameter estimations are “conditioned out” of the item parameter equations
- joint maximum likelihood estimation (JMLE): Item and person parameters are estimated concurrently joint (i.e., estimation)
- marginal maximum likelihood estimation (MMLE): Assumes a specified distribution (e.g., Gaussian) for person parameters, which allows them to be integrated out, or “marginalized” from the likelihood
- 分析では実在語108語を対象にCMLE (eRmパッケージ) を使用
- Outfit MNSQが50を超えるitem・person (misfit) については以下のような場合に除外された
- their inclusion resulted in misfit for two or more persons
- they displayed erratic answer patterns
- they were answered correctly by every test taker
- サンプル間のinvarianceについては尤度比検定で比較
- the test’s invariance across samples was assessed with Andersen’s (1973) likelihood ratio (LR) test, which is a goodness of fit test that compares two sets of item difficulties acquired from two different groups. The LR test is a CMLEdriven method (Alexandrowicz & Draxler, 2016) and involves ordering the participants by logit-based ability on a spreadsheet and separating them into two groups; odd rows and even rows. The results of the two groups are assessed with the LR test to determine whether the item difficulties remain stable.
- 5–1.5のmisfit thresholdと± 2.0以上のtscoreを用いた結果、128名の受験者と88項目が最終的なモデルで得られた
- 受験者のperson abilityは大部分が0を超えていたことから (Wright map)、テストは今回の受験者集団 (CEFR B1レベル以上) に対しては難しくはなかったことが示された
- 満点は1名だけであったことから、簡単すぎるわけではないことも示された
- ItemのSEは34 (0.20) であったことから、構成概念を適切に測定できていた
- 88項目中、ロジットが上位の10項目はSEが .70を超えていたため、これらの項目は受験者集団には難しい項目であったと考えられる
- Infit MNSQは76から1.20であったが、Outfit MNSQは0.5を下回る項目が11個 (9.68%) あった
- infitは重み付けされており、outfitは外れ値に影響を受けやすい
- 尤度比検定 (Likelihood Test; LR test) の結果は以下のとおり
- Finally, regarding the extent to which the AWL-based Yes/No test items could be considered invariant across subsamples, Andersen’s LR test was conducted. Here, 6 out of the 10 easiest items (enable, nuclear, topic, depression, edition, and unique) were omitted from the analysis by eRm due to inappropriate response patterns. The nonsignificant test result, LR(81) = 73.47, p = .71, suggested that the two subsamples were responding to the test items in a similar manner.
YesNo語彙テストに関する先行研究
- Stubbe (2012):
- 擬似語を含むYes/No形式のテストと実在語のみの多肢選択式テストを比較し、擬似語の存在が学習者の語彙サイズを過剰・過小に推定していないかを検討。熟達度が高い学習者集団ではfalse alarm (存在しないはずの擬似語に対して「存在する」と解答する) の割合が熟達度の低い学習者集団よりも多かったが、熟達度の低い学習者集団の方がYes/Noのテストは語彙サイズを過剰に推定していることが示された。
- Zhang et al. (2020):
- 擬似語を含むYes/Noテスト・多肢選択式テスト・翻訳テストの相関および、擬似語の作成方法 (文字数、形態・音韻の近傍語サイズ) がどのようにfalse alarmに影響するかをSEMで検討。Yes/Noテストの結果を実在語・擬似語ごとにラッシュモデルで検討。その結果、擬似語におけるguessing (翻訳テストで不正解だがYes/Noテストでは正解の項目) と実在語におけるguessingの相関が高かったことから、Yes/Noテストには擬似語を含めるべきであることが示された。また、形態の近傍語サイズがfalse alarmの発生率に影響を与えていることが示された。
- 猪原 他 (2021):
- L1 (日本語) でYes/No形式と多肢選択式語彙テストを実施し、読書冊数・読書好意度との関係を媒介分析で検討。Mochida and Harrington (2006) と同様に、2種類のテストは同じ目標語を別の形式で測定している。高校生から60代の社会人を対象に (調査1:3124名、調査2:1040名)、Yes/No・多肢選択式の語彙テスト (調査1:120項目、調査2:100項目) と読書冊数・読書好意度が測定された。Yes/Noと多肢選択式テストの相関は調査であった。
先行研究に関する疑問点
- Yes/No形式の語彙テストではテスト指示に「擬似語が含まれている」のように、擬似語の存在を示すべき?
- Stubbe (2012) の指示:「鉛筆またはシャープペンシルを使用しなさい。あなたが意味を知っている単語について、右側のマークを塗りつぶしなさい。いくつかの単語は、英語で存在しないものもあります。」
- 受験者にどのようなことがあるかを示すことがfairnessにつながるため示す必要がある。ルーブリックや採点基準は事前に言うべき。