はじめに

中学校や高校の数学の授業では、x軸の値が増えればy軸の値も増えるような関係は一次関数と習いました。この一次関数は単回帰分析と似ています。しかし、現実では数学の授業で扱うようなデータは手に入りません。なぜなら、測定における誤差 (例:受験者の当日の体調、問題の難易度) が影響するためです。この誤差は真の値からプラスになる場合もあれば、マイナスになる場合もあります。そのため、誤差は一般的に平均が0、標準偏差が1の正規分布に従うとされます。

得られたデータと誤差を合わせ、誤差が最も小さくなるように一次関数の直線を引く分析方法が単回帰分析です。単回帰分析は例えば、家庭学習の時間から中間試験の点数を予測する際などに用いることができます。つまり、x軸に家庭学習の時間、y軸に中間試験の点数をプロットすることとなります。予測する側は独立変数や説明変数、予測変数などと呼ばれます。一方、予測される側は従属変数や目的変数、応答変数などと呼ばれます。単回帰分析では独立変数と従属変数の両方が量的データとなります。

クラス1とクラス2の中間試験の平均点に差があるのかを検討する場合を考えてみましょう。x軸に2つのクラス、y軸に中間試験の点数をプロットします。単回帰分析と似ていますが、x軸が量的データではなく、2値のカテゴリカルデータとなります。つまり、独立変数が2値となります。このような分析はt検定と呼ばれていました。それでは、1組・2組・3組・4組の場合はどうなるでしょうか?x軸に4つの値がプロットされることとなります。t検定を使って、1組と2組、1組と3組、1組と4組、2組と3組、2組と4組、3組と4組を比較することは統計学ではタイプ1エラー (実際には差がないのに差があると判断してしまう) の確率を高めてしまうため不適切とされます。そこで利用できるのが分散分析 (analysis of variance; ANOVA) です。

F分布

分散分析における検定統計量はFと呼ばれます。Fは、群間 (上記の例では1〜4組の間) の平均値の分散がどれほど大きいかを標準化したものです。すべての群間で平均値に差がないのであれば、群間の分散も0となります。t検定と同様に、プールされた普遍分散$U_p^2$を用いると、Fは以下のように計算されます。

$$ F=\frac{1}{k-1}\sum_{j=1}^k(\frac{\bar{Y_j}-\bar{Y}}{U_p\sqrt{n_j}})^2 $$

基本的にはt検定と同じ式の形ですが、2乗である点と、群ごとの平均値の普遍分散を計算することからk-1で割っている点が異なります。$\bar{Y_j}$は各群の平均値となります。

F値は群間と群内の2つの自由度を持ちます。群間の自由度は比較する群の数から1を引いたもので、群内の自由度は全サンプルサイズから比較する群の数を引いたものとなります。例えば、1組から4組まで、1クラスに30人の生徒がいるとすると、全サンプルサイズは120名、比較する群の数は4となります。群間の自由度は4-1 = 3、群内の自由度は120-4 = 116となります。帰無仮説が正しいとき、F値はこれらの2つの自由度を持つF分布に従います。F分布は2つの独立したカイ二乗分布の比率として定義されます。分子のカイ二乗分布は群間の自由度に従い、分母のカイ二乗分布は群内の自由度に従います。

球面性の仮定

ANOVAを行うにあたり、いくつか前提があります。1つは正規性です。これは従属変数が正規分布に従っているデータであるかどうかを指します。シャピロ・ウィルク検定やQQプロットによって確認することができます。

等分散性の仮定は、比較する群の母集団の分散が等しいことを意味します。つまり、各群のデータのばらつきが同程度であることを前提としています。等分散性の仮定が満たされていない場合、ANOVAの結果は信頼できないものになる可能性があります。この仮定が満たされていない状況を「分散の異質性」または「不等分散」と呼びます。等分散性の検定方法にはLeveneの検定 (各群の中央値からの偏差の絶対値を用いて分散の同質性を検定)、Bartlett検定 (各群の分散を直接比較)、Brown-Forsythe検定 (各群の中央値からの偏差の絶対値を用いて分散の同質性を検定) などがあります。

正規性と等分散性の仮定はt検定と同じですが、反復測定 (同じ参加者に対して複数の条件や時点で測定を行うデザイン) の場合には球面性の仮定が新たに加わります。球面性の仮定では、以下の2つの条件を満たすことを意味します:

  1. 各条件の分散が等しい (等分散性)
  2. 条件間の相関が等しい

つまり、共分散行列が「複合対称行列」の形を取ることを前提としています。複合対称行列とは、対角要素が全て等しく、対角要素以外の要素も全て等しい行列のことです。球面性の検定方法にはMauchlyの球面性検定 (共分散行列が複合対称行列であるかどうかを検定) があります。なお、球面性の仮定が満たされない場合はGreenhouse-Geisser法やHuynh-Feldt法などのイプシロン修正によって自由度を調整することで、球面性の違反に対処します。

Rのコード

以下のRのコードを実行すると、以下のようなデータセット (Example.csv) を作成することができます。今回はこちらについては説明を省略します。

Example.csv