ベルヌーイ分布・二項分布

テストにおける「正解・不正解」や視線計測における「読み戻りあり・読み戻りなし」のような2値データは離散方確率分布であるベルヌーイ分布 (bernoulli distribution) に従っています。ベルヌーイ分布は以下の確率質量関数を持ちます。

$$ f(x)=θ^x(1-θ)^{1-x} $$

パラメタは $θ (0≦θ≦1)$ のみで、以下のように、パラメタ$θ$は$X = 1$となる確率に対応しています。

$$ \sum_{i=1}^{1}f(x)=f(1)=θ^1(1-θ)^0=θ $$

$$ \sum_{i=0}^{0}f(x)=f(0)=θ^0(1-θ)^1=1-θ $$

つまり、ベルヌーイ分布に従う確率変数の期待値は$E[X]=θ$、分散は$V[X]=θ(1-θ)$となります。

ベルヌーイ試行をk回実施した際、一方の結果が観測された回数Xが従う確率変数は二項分布 (binomial distribution) と呼ばれます。二項分布の確率質量関数は以下のように表されます。

$$ \frac{k!}{x!(k-x)!}θ^x(1-θ)^{k-x} $$

二項分布に従う確率変数の期待値は$E[X]=kθ$、分散は$V[X]=kθ(1-θ)$となり、ベルヌーイ分布の期待値と分散がk倍されているものとなります。なお、ベルヌーイ試行の回数が非常に多い場合、$μ=kθ$、$σ^2=kθ(1-θ)$の正規分布に近似することがわかります。

この点をRで可視化して確認してみましょう。以下のコードではに高分布に従う2値データを2000個生成させ、1となる頻度をY軸、試行回数をXとしたヒストグラムを描いたものです。そこに、$μ=kθ$、$σ^2=kθ(1-θ)$の正規分布をプロットしました。

# 乱数種の設定
set.seed(123)

# 二項分布に従う乱数の個数
n <- 10000

# ベルヌーイ試行の回数
k <- 2000

# パラメタθの設定
theta <- 0.3

# 正規分布のパラメタ
mu <- k * theta
sigma <- sqrt(k * theta * (1 - theta))

# 二項分布に従う乱数の作成
random <- rbinom(n = n, size = k, prob = theta)
hist(random, prob = TRUE)

# 正規分布を重ねる
line_x <- seq(min(random), max(random), length = 200)
lines(x = line_x, y = dnorm(line_x, mean = mu, sd = sigma))

image.png

二項分布と正規分布の共通点が見られました。

χ二乗分布

英作文における冠詞エラーの数など、クロス集計表を分析する際にはχ二乗検定が用いられることが多くあります。このχ二乗検定ではχ二乗分布 (Chi-square distribution) と呼ばれる確率分布を用いて分析しています。

正規分布のパラメタは、平均μと標準偏差σの2つでした。このμを0、σを1として標準化した分布は標準正規分布 ($Z_i = \frac{X_i-μ}{σ}$) と呼ばれます。この標準正規分布に独立同分布として従うn個の確率変数の平方和 ($Z_1^2+Z_2^2+…+Z_n^2$) が従う確率変数がχ二乗分布と呼ばれます。χ二乗分布は自由度 (degree of freedom) というパラメタを有しています。このχ二乗分布に従う確率変数の期待値は自由度$ν$、分散は$2ν$となります。

それでは標準正規分布に従う乱数を10個作成し、自由度$ν=10$のχ二乗分布と一致することを確認していきましょう。

# 乱数種の設定
set.seed(123)

# 標準正規分布に従う乱数の個数
n <- 10

# 反復回数
iteration <- 10000

# 平方和の作成
z <- rep(0, each = iteration)

# 正規分布における平方和の作成
for(i in 1:iteration){
  z[i] <- rnorm(n)^2 %>% sum()
}

# 標準正規分布を重ねる
hist(z, prob = TRUE)
line_x <- seq(min(z), max(z), length = 200)
lines(x = line_x, y = dchisq(line_x, df = n))

image.png

このように、χ二乗分布は自由度$ν$が限りなく大きくなる時、正規分布に近づきます (中心極限定理; centraral limit theorem)。

t分布