英単語のテストは「単語力」を測定しています。しかし、実際のテストでは「以下の英単語の意味として最も適切なものをa〜dから1つずつ選びなさい。1. apple、2. pear、3. fig …」のように、個別の単語が出題されます。そのため「単語力」のような目に見えない能力を、目に見えるテスト項目を使って測定していると言えます。ちなみに上記の答えはリンゴ、ナシ、イチジクとなります。fig (イチジク) はもしかしたら難しい項目であり、受験者の点数が低いかもしれません。
目に見えるデータは観測変数、目に見えないデータは潜在変数と呼ばれています。つまり、上記の例では観測変数は受験者から集めたテストの結果 (正解・不正解のような2値データ、平均点・分散) となり、潜在変数 (単語力) は因子分析などによって仮定されます。つまり、潜在変数それ自体は測定することはできません。
因子分析では、観測変数は四角、潜在変数は丸で囲まれます。確認的因子分析のコードは以下のとおりです。
library(lavaan)
library(semPlot)
HS.model <- 'visual =~ x1 + x2 + x3
textual =~ x4 + x5 + x6
speed =~ x7 + x8 + x9'
fit <- cfa(HS.model, data = HolzingerSwineford1939)
lavaanPlot(model = fit)
心理学ではテストや質問紙などを用いて潜在変数を測定します。ほとんどの場合、得られる結果は順序カテゴリカルデータです (e.g., 1〜5で回答するなどのアンケート)。テストには複数の項目が含まれていることが多く、正解か不正解かなどの2値データや反応時間などの数値が得られます。また、不安感や幸福度などを測定することを目的とした質問紙ではyes/no、リッカート尺度などが使われる傾向にあります。
観測変数にはいくつかの種類があります。
5段階のアンケートを連続変数として扱うことに対して、「背景に仮定されている潜在変数が連続値であることから間隔尺度として扱って問題ない」という主張と「順序カテゴリカルデータに対してパラメトリックな手法 (t検定やANOVA) を使うのは不適切であり、順序ロジスティック回帰を用いるべきだ」という主張があります。同様に、テストの合計点は2値データを合算させたものであり、データの特徴を捻じ曲げてしまっていることから、統計的には望ましくないと考えられます。この理由は、標準化されていないテストなどで測定した指標が使われるのは、その研究のみであることが多く (Elson et al., 2023)、測定具による合計点やクロンバックのアルファによる内的一貫性の報告もad hoc (その場限り) であるためです。
We need a reasonable psychometric analysis to justify the use of a sum score! And even then the “sum score” is a debatable metric in itself since it is ordinal data, but often gets treated like interval data in statistical models.
テストの合計点や平均点を用いる理論は、古典的テスト理論と呼ばれます。テストの採点の際、以下のような表をエクセルで作成すると、合計点や正解率を簡単に計算することができます。
受験者 | Q1 | Q2 | Q3 | Q4 | Q5 | Q6 |
---|---|---|---|---|---|---|
A | 0 | 0 | 0 | 0 | 0 | 1 |
B | 0 | 0 | 0 | 0 | 0 | 0 |
C | 0 | 0 | 0 | 0 | 0 | 0 |
D | 1 | 0 | 1 | 0 | 0 | 0 |
E | 1 | 0 | 0 | 0 | 1 | 0 |
ここでは正解を1、不正解を0として記載しています。Q6の右側にエクセルのSUM関数を使うと、受験者ごとの点数が算出され、受験者Eの下ではテスト項目ごとの合計点数が計算できます。項目ごとに合計点数を計算すると、その問題の正解率を計算することができます。この正解率は「通過率」と呼ばれます。$N$人の受験者の中で項目$j$に正解した受験者が$k_j$人いた場合、通過率$p_j$は以下のように計算されます。
$$ p_j = \frac{1}{N}\sum_{i=1}^{N}u_{ij} $$
つまり通過率は、項目$j$に正解した受験者の割合であり、項目$j$の平均点と解釈することもできます。通過率が高い項目ほど易しい項目と言えます。