こちらのページで紹介されているRのコードはいずれもbrmsパッケージのデフォルトの事前分布を仮定していることにご注意ください。
混合モデルを実装するlme4パッケージでは、引数familyにbinomial (2値ロジスティック回帰 = 目的変数が2値データ)、poisson (ポアソン回帰 = 目的変数がカウントデータ)、Gamma (ガンマ回帰 = 目的変数が自然数となるデータ)、gaussian (線型混合モデル = 目的変数が連続データ) などが含まれています。なお、ポアソン回帰の一種である負の二項分布 (negative binomial distribution) に基づく回帰分析 (混合モデル) の場合には、glmer()関数ではなくglmer.nb()関数を使います。
これらの混合モデルはいずれもlme4やmgcv、gammパッケージなどを使うことで実装することができますが、目的変数が3水準以上のダミーコードとなる場合や順序データ、多変量の分析などの自由なモデリングには対応していません。(もしかしたら今後改善されるかもしれません)
3水準以上のカテゴリカル変数は、例えば、語彙連想課題の分野などで使われます。語彙連想課題とは、目標語から連想される語を書き出す (or 口頭で述べる) という課題で、メンタルレキシコンの構造を検討する際に用いられてきました。例えば、appleから連想される語としてはbanana、fruit、red、pie、Newtonなどがあります。語彙連想課題の分析の際にはこれらの連想語をいくつかのカテゴリーに分けていきます。apple-bananaの関係は同位語、apple-fruitの関係は上位語・下位語、apple-redの関係はシンタグマティック (コロケーション・統語)、apple-Newtonの関係はfree associationとなります。このようなカテゴリーの間には順序関係がありません。そのため、「正解・不正解」「成功・失敗」のような2値データと同じダミーコードが付与されます。
2024年現在、lme4パッケージのfamilyではこのmultinomialのデータを分析することができません。
lme4パッケージで分析することができないデータの2つ目は順序データです。順序データの典型例はアンケートなどのリッカートスケールです。アンケートの結果は因子分析などでまとめられてしまうことが多いですが、例えば、生徒のスピーチを5段階で評価するなどのデータでは有用です。パフォーマンス評価を行う際には、評価者と受験者をファセットとした多層ラッシュモデルで分析することもできます。多相ラッシュモデルは評価者の厳しさや受験者の能力を含めたモデリングであり、現在のデータを説明することが目的です。一方、順序ロジスティック回帰では、未来のデータを予測することが目的となります。例えば、受験者の授業中の様子からスピーチの評価を予測するなどが挙げられます。
lme4パッケージのfamilyではこのordinal logistic regressionは実装できません。ランダム効果も含めたcumulative link mixed effect modelの場合はclmmパッケージを使うことができます。
MANOVAのように目的変数が複数ある場合、lme4パッケージでは混合効果を含めたMANOVAを実装することができません。例えば、recallとrecognitionの語彙テストで得られた正解・不正解のデータはrecallで1つの2値ロジスティック回帰、recognitionで1つの2値ロジスティック回帰という具合に、2つのGLMMでモデルが作成されます。
上記のように、lme4パッケージで分析することができないデータはbrmsパッケージを使うことで全て解決可能です。brmsパッケージはベイズ推定を行うためのパッケージです。以下ではベイズアプローチに基づく回帰分析について簡単に紹介します。
ベイズアプローチとは、物事について、どれくらい知っているのか、あるいは知らないのかを、確率で表現するものです。例えば、明日が雨なのか晴れなのかよくわからないという場合でも、「よくわからない」ではなく、「雨が降る確率は40%くらいだろうか」と確率を使って定量的に評価することが試みられます。
ベイズアプローチはベイズの定理に基づき、事前確率を事後確率に更新します。事前確率とは、データが得られる前に想定された確率のことで、データが得られた後に想定する確率です。例えば、先行研究で得られている効果量を事前確率とし、手元のデータに当てはめてパラメータの推定値やデータの予測値を得ることができます。
事前確率を事後確率に更新する際には尤度と周辺尤度の比を使います。尤度とはパラメータが所与であるという条件における、標本が得られる確率のことで、条件付き確率として表現されます。一方で周辺尤度とはデータが得られる平均的な確率です。例えば、語彙テストにおいて、ある単語の意味を正しく回答できるかどうかの確率は正解か不正解かで50%であると想定されます。ただし、appleやorangeのように具体的な語彙は75%の確率で正解し、amazingやdoubtfulのような抽象的な語彙の正解率は50%であることが先行研究で示されているとします。この状況を数式としてまとめると、以下のようになります。