Item Response Theory

項目応答理論 (item response theory; IRT) では、person ability ($θ$) とitem difficulty ($ξ$) という2つの潜在変数を同一尺度上で推定する (Bond et al., 2021; Lord, 2012; Embretson & Reise, 2013; van der Linden & Hambleton, 1997)。一般的には、正解か不正解かの2値データを扱うIRTが用いられるが、5段階評価のような拡張ラッシュモデルである段階反応モデル (graded response model; GRM) や部分得点モデル (partial credit model; PCM)、多次元性を仮定する多次元項目応答理論 (multidimensional item response theory; MIRT) なども存在する。これらのIRTは、オープンソースであるRで実装することができ、eRm (Mair & Hatzinger, 2007) やltm (Rizopoulos, 2006)、TAM (Robitzsch et al., 2024)、mirt (Chalmers, 2012)、sirt (Robitzsch, 2019) など、さまざまなパッケージで実装することができる。

Model Specification

統計分析で扱うデータの特徴は、大きく説明変数 (predictor variable) と目的変数 (outcome variable) に分けられ、回帰分析はこの組み合わせによって名称が異なる (Table 1)。

Table 1 Specification of regression analysis

Model Predictor Variable Outcome Variable
t-test Two-level Nominal Continuous
ANOVA Three-level Nominal Continuous
Linear Regression Categorical or Continuous Continuous
Dichotomous Logistic / Probit Regression Categorical or Continuous Two-level Nominal
Multinomial Logistic Regression Categorical or Continuous Nominal
Ordinal Logistic Regression Categorical or Continuous Ordinal
Poisson / Negative Binomial Regression Categorical or Continuous Frequency

データはさらに、観測変数 (observed variable) と潜在変数 (latent variable) という観点でも分けられる。観測変数は、例えば、受験者Aが項目1に対して正解したかどうか、項目2に解答するまでにかかった反応時間、7段階のアンケート項目3にどの数値を選んだかなど、直接観察することができる変数のことである。一方、潜在変数とは、直接観測することができず、観測変数を通じて間接的に推定される隠れた特性や概念のことを指す。例えば、語彙サイズ (vocabuary size)、decoding skill、スピーキング能力などが挙げられる。ANOVAや重回帰分析などの回帰分析は目的変数と説明変数の両方を観測変数とする。一般化線形混合効果モデル (generalized linear mixed effect model; GLMM) では、目的変数と固定効果が観測変数であるが、変量効果が潜在変数である。

データの特徴に基づくと、潜在変数を扱う統計モデルはTable 2のように表すことができる。IRTは回帰分析の枠組みで解釈すると、潜在変数である$θ_k$と$ξ_k$を説明変数、観測された正解・不正解の2値データを扱うロジスティック回帰分析であると言える。具体的には、item difficulty $ξ_{kin}$とperson ability $θ_{kpn}$は、全体の切片$b_0$を加えて、$y=b_0+θ_{kpn}+ξ_{kin}$と表すことができる (Bürkner, 2020; De Boeck et al., 2011)。この回帰式はpersonとitemをランダム効果とする2値ロジスティック回帰分析 (GLMM) に等しい。なお、全体の切片$b_0$を除外することが通例であることも指摘されている (Isbell & Son, 2023)。

GLMMは応用言語学において一般的な分析手法になりつつあり (Linck & Cunnings, 2015)、統計ソフトウェアであるRのlme4パッケージ (Bates et al., 2015) を使ってモデルを推定できる (see Winter, 2020)。例えば、50問の語彙テストに100名の参加者が解答した場合、目的変数が正解もしくは不正解という2値データ、itemがレベル1、personがレベル2となるマルチレベルのデータが得られる。つまり、5000の観測値が得られる。

GLMMは、(a) $θ_{kpn}$と$ξ_{kin}$の線型結合、(b) (a) を目的変数へと変換するリンク関数、(c) 誤差によって説明される。このGLMMは確率分布で表すと以下のようになる。ここで$ψ$はパラメータを$y$は目的変数をそれぞれ表し、$y$がベルヌーイ分布に従っていることを表している。

$$ y 〜 Bernoulli(ψ)=ψ^y(1-ψ)^{1-y} $$

Table 2 Specification of statistical models

Model Predictor Variable Outcome Variable
Factor Analysis Continuous (Latent) Continuous (Observed)
Principle Component Analysis Continuous (Observed) Continuous (Latent)
Rasch Model (Item Response Theory) Continuous (Latent) Two-level Nominal(Observed)
Graded Response Model / Partial Credit Model Continuous (Latent) Ordinal (Observed)
Latent Class Analysis Nominal (Latent) Nominal (Observed)
Latent Rank Theory Ordinal (Latent) Categorical (Observed)

IRTで推定する潜在変数はperson ability $θ_k$とitem difficulty $ξ_k$の2種類である。そのため、distributional parameter $ψ_k$は、$ψ_{kn} = f_k(θ_{kpn}, ξ_{kin})$ のような関数で表される。ここで、$p_n$と$i_n$はn番目のpersonとitemのパラメータをそれぞれ表している。$f$はidentity functionであり、$θ_{kpn}$と$ξ_{kin}$は線形で加法的な関係にあるため、$ψ_{kn} = θ_{kpn} + ξ_{kin}$と表現される。一方、目的変数が2値である場合、$ψ_{kn}$がベルヌーイ分布に従うと仮定すると、$f$と$ψ$は以下のように表される (Bürkner, 2020)。ただし、ここでは回帰式の文脈でIRT modelを示していることから、item difficultyではなく、item “easiness” として扱われており、“$-ξ_k$” の修正を加えていることに注意が必要である。

$$ f(θ_{kpn} + ξ_{kin})=logistic(θ_{kpn} + ξ_{kin})=\frac{exp(θ_{kpn} + ξ_{kin})}{1+exp(θ_{kpn} + ξ_{kin})} = ψ_{kn} $$

このロジスティック関数はリンク関数と呼ばれ、ロジスティック回帰分析として広く用いられている。一方、$ψ_{kn}$が正規累積分布 (cumulative standard normal distribution) に従うと仮定すると、リンク関数にプロビット関数を用いることとなる。ロジスティック分布は、標準偏差1.7の正規分布で非常によく近似されるため、プロビットスケールは、よく知られているD = 1.7を乗算することで、ロジットスケールに変換できる。なお、多くの心理測定の専門家は$θ_{kpn}$と$ξ_{kin}$の関係について、item difficultyを直感的に解釈するためにマイナス記号を用いて、$θ_{kpn} - ξ_{kin}$によってitem difficultyが表される。

2PLM and 3PLM

IRTでは推定するparameterの数でモデルが異なる。一般的にはperson ability ($θ$) とitem difficulty ($ξ$) の2つを推定するIRTである。このモデルはone-parameter logistic model (1PLM) と呼ばれる。$θ$と$ξ$に加え、discrimination parameter ($a$) を推定するモデルは、two-parameter logistic model (2PLM) と呼ばれる。さらに、2PLMにrandom guessing parameter ($g$) を加えたモデルは、three-parameter model (3PLM) と呼ばれる。

1PLMでは、$a$はitemごとに一貫していることを前提としている。つまり、現実的では稀であるが、どの項目も等しくテスト受験者の能力を区別することができると想定している。2PLMで仮定される$a$を推定するモデルは以下のように表される。なお、回帰分析の文脈で言うと、$a$はランダム傾きである。