記述統計は表と図の通り。
| Scoring Methods | Hit | False Alarm | $Δm$ | $I_{SDT}$ | Scoring_1 | Scoring_2 | Scoring_3 | Scoring_4 | Scoring_5 |
|---|---|---|---|---|---|---|---|---|---|
| M | 0.486 | 0.091 | 0.252 | 0.475 | 52.505 | 117.939 | 170.444 | 225.939 | 343.879 |
| SD | 0.228 | 1.000 | 0.332 | 0.169 | 24.629 | 22.691 | 46.810 | 22.691 | 45.382 |
| Median | 0.509 | 0.694 | 0.323 | 0.494 | 55 | 120 | 174 | 228 | 348 |
| Min | 0.028 | 0 | -0.760 | 0.064 | 3 | 74 | 77 | 182 | 256 |
| Max | 0.889 | 0.514 | 0.746 | 0.775 | 96 | 158 | 254 | 266 | 424 |
Note. $\Delta m = \frac{h - f}{1 - f} - \frac{f}{h}$, $I_{SDT} = 1 - \frac{4h (1 - f) - 2 (h - f) (1 + h - f)}{4h (1 - f) - (h - f) (1 + h - f)}$. h = hit, f = false alarm.

| ** | Hit Rate | False Alarm Rate | Delta_m | I_SDT | Scoring_1 | Scoring_2 | Scoring_3 | Scoring_4 | Scoring_5 |
|---|---|---|---|---|---|---|---|---|---|
| Hit Rate | |||||||||
| False Alarm Rate | 0.405 | ||||||||
| Delta_m | 0.661 | -0.363 | |||||||
| I_SDT | 0.706 | -0.331 | 0.990 | ||||||
| Scoring_1 | 1.000 | 0.405 | 0.661 | 0.706 | |||||
| Scoring_2 | 0.957 | 0.122 | 0.832 | 0.871 | 0.957 | ||||
| Scoring_3 | 0.990 | 0.272 | 0.751 | 0.794 | 0.990 | 0.988 | |||
| Scoring_4 | 0.957 | 0.122 | 0.832 | 0.871 | 0.957 | 1.000 | 0.988 | ||
| Scoring_5 | 0.957 | 0.122 | 0.832 | 0.871 | 0.957 | 1.000 | 0.988 | 1.000 |

RQ1 (YesNo語彙テストの採点には、非単語を含めるべきか?) に回答するため、以下の2つの採点方法を1パラメタロジスティックモデルで比較した:
Scoring_1のモデルは非単語を含めない採点方法、Scoring_2は非単語を含めた採点方法であり、どちらの採点方法に基づくモデルがより高い推定精度となるかを比較した。
$$ f(θ_{kpn} + ξ_{kin})=logistic(θ_{kpn} + ξ_{kin})=\frac{exp(θ_{kpn} + ξ_{kin})}{1+exp(θ_{kpn} + ξ_{kin})} = ψ_{kn} $$
itemおよびpersonのfit statisticsを採点方法ごとに算出し、プロットしたものは以下の通り。





