プラモデルは本物の車や飛行機などの実際の重さや材質、機能などを無視して、形や色を模倣しています。つまり、モデルとは不必要な性質を大胆に無視して、必要なエッセンスだけを取り上げたものを指します。統計モデルは確率分布とパラメータを使ってデータの特徴を模倣するものです。このページでは伝統的な統計モデルではどのような手法が用いられているのかを概観していきましょう。
統計モデルを理解する上で、データにはいくつかの種類があることを押さえておきましょう。例えば、身長は150センチよりも160センチの方が高く、この10センチの差は170センチと180センチの差と同じです。また、小学生の頃は140センチだった身長が大学生で180センチになった際には、身長が約1.3倍になったと言えます。さらに、長さの単位となっているセンチメートルの長さには原点となる0があります。このように、原点があり、間隔や比率に意味があるデータは比率尺度と呼ばれます。
気温の5度から10度への変化と15度から20度への変化は、どちらも同じ5度の変化であることから間隔は等しいと言えます。しかし、5度が10度へと変化しても、気温が2倍になったとは言えません。このように、目盛が等間隔となるデータは間隔尺度と呼ばれます。
データの情報量としては、比率尺度の方が間隔尺度よりも多いと言われています。間隔尺度以上のデータでは平均値や標準偏差などを計算することができます。特に、比率尺度は平均値を標準偏差で割った変動係数を計算することができ、平均値に対する相対的なばらつきの大きさを検討することができます。
英語教育の分野で用いるデータとしては、テストの点数のような間隔尺度だけでなく、名義尺度と順序尺度があります。
名義尺度とは、学習条件A・B・Cのように、他と区別するだけのラベルのことを指します。例えば、母語が日本語である場合を1、中国語である場合を2としても、1より2の方が大きいとは言えません。この順序が仮定されるデータ (例:英検の級、CEFRレベル) は順序尺度と呼ばれます。名義尺度の場合は数を数え上げるのみですが、順序尺度は中央値を検討することができます。名義尺度と順序尺度は質的変数やカテゴリカル変数と呼ばれます。一方、間隔尺度や比率尺度は量的変数や連続変数と呼ばれます。
英語教育の分野では目に見えない変数を扱うことが多いです。例えば、「コミュニケーションで使える語彙知識」とはいったい何を指しているのでしょうか。スピーキングで使われる語彙知識なのでしょうか、ダイアローグにおいて相手が英語で言っていることを理解するためのリスニングで使われる語彙知識も含むのでしょうか、メールの「確かに拝受しました」を英語で伝える際にcertainlyを使うと嫌味に聞こえてしまうような語用論的知識なのでしょうか、“make” を使えることは作成動詞と使役動詞の2種類があると知っていることなのでしょうか、使役動詞のmakeは受動態では原形不定詞ではなくto不定詞を伴うと知っていることなのでしょうか、使える語彙知識と使える文法知識に違いはあるのでしょうか。
目に見えない概念を扱うには測定具が必要です。語彙知識の測定には一般的に「語彙サイズテスト」が用いられることがあります。日本語を母語とする英語学習者が英語の語彙知識をどのくらい知っているかを検討する測定具としては、Hamada et al. (2021) のVST-NJ8や相澤・望月 (2010) の望月語彙サイズテストなどがあります。このように、測定具を用いて目に見えるようなデータが得られると、英語学習者の熟達度を検討することができます。目に見える変数を観測変数、目に見えない変数を潜在変数と呼びます。
「風が吹けば桶屋が儲かる」という日本の諺を聞いたことはありますか?以下はWikipediaによる説明です。
この関係性の説明は相当に無理がありますが、気温とアイスクリームの売り上げの関係性はどうでしょうか?夏のような暑い気温ではアイスクリームを購入する人が多くなりそうです。ではアイスクリームの売り上げと溺死の件数の関係はどうでしょうか。夏になると海水浴に行く人が増え、溺死の件数も増えると予想されます。このように、どちらが原因でどちらが結果であるかがはっきりとしない関係性は相関関係と呼ばれます。なお「相関がある」「相関がない」という表現は不適切で、「強い相関がある」「弱い相関がある」「正の相関がある」「負の相関がある」のようなコロケーションを用います。どちらかが高くなればどちらかも高くなるような気温とアイスクリームの売り上げは正の相関、どちらかが高くなればどちらかが低くなるような気温とおでんの売り上げは負の相関と言います。