「分散分析」とは
概要
端的に言うと、「“特定の数値が、グループによって有意に異なるか?”を”分散を見て”調べる」という検定です。
分散分析には、「“一元配置”分散分析」と「“二元配置”分散分析」があります。
下記[詳細]では、シンプルな”一元配置”について説明を記載しています。
一元配置とは、”1つの観点のグループ分け”(=1因子)について分析することです。
(例 : 「性別」を因子とし、「男性」と「女性」をグループとして”身長の差異”を分析)
応用として”二元配置”があり、それは2因子について分析をします。
二元配置では、(一元配置と同様に)各因子単位で分析することに加え、2因子の相互作用(第一、第二因子のグループの組)も分析します。
(例: 「性別」と「地域」をそれぞれ因子とし、下記観点で、”身長の差異”を分析。
・「性別」の違いで身長の差異があるか?
・「地域」の違いで 〃 ?
・「性別」と「地域」の組の違いで、 〃 ?)
詳細
上記の通り、ここでは”一元配置”分散分析について説明します。
分散分析は検定の一種なので、仮説検証の形になっています。
特定数値を下記モデルであると仮定し、帰無仮説を「グループ間で差異は無い」として検定を行います。
n個の数値データx_{ij}を下記モデルと仮定する。\\\\ iはグループの番号を意味し、\\\\ ε_{ij}は互いに独立な正規分布N(0 , σ^2)に従う。\\\\ x_{ij} = μ + α_i + ε_{ij}\\\\ (※1)i=1,...,k、j=1,...,n_i\\\\ (※2)n=n_1+n_2+...+n_k\\\\ \\\\ 帰無仮説を「α_1=α_2=...=α_k=0」して、検定を行う。
この検定では、下記2種類の分散「群間分散」と「群内分散」を集計し、その比率を確認します。
その比率はF統計量(=F分布に従う)となり、基準値より大きい時に帰無仮説を棄却します。(つまり、「グループ間で有意な差がある」と判断します。)
グループiのデータ数をn_iとする。\\\\ (i=1,...,k、n_1+...+n_k=n)\\\\ また、グループi内の平均を\bar{x_i}(=\frac{1}{n_i}\sum^{n_i}_{j=1}x_{ij})、\\\\ 全体の平均を\bar{x}(=\frac{1}{n}\sum^{k}_{i=1}\sum^{n_i}_{j=1}x_{ij})とする。\\\\ この時、群間分散、群内分散は下記の通り。\\\\ \\\\ [群間分散]\\\\ MSB=\frac{1}{k-1}\sum^{k}_{i=1}\sum^{n_i}_{j=1}(\bar{x_i}-\bar{x})^2\\\\ (Mean Square Between)\\\\ \\\\ [群内分散]\\\\ MSW=\frac{1}{n-k}\sum^{k}_{i=1}\sum^{n_i}_{j=1}(x_{ij}-\bar{x_i})^2\\\\ (Mean Square Within)
帰無仮説を仮定した時、F統計量は下記の通り。\\\\ \\\\ F(k-1,n-k) = \frac{MSB}{MSW}
上記の通り、群間分散は”グループ平均と全体平均の差“を見ていて、群内分散は”データとグループ平均の差“を見ています。
各グループ内の数値がまとまっていれば群内分散は小さくなり、そして、グループ間で数値が離れていれば(各グループの平均がバラつくため)群間分散は大きくなります。
つまり、「F値が大きい」ことは、「各グループで数値がまとまっていて、且つ、グループ間で数値が離れている」を意味します。
補足
群内分散(MSW)は母分散(σ^2)の推定量
分散分析では、上記の通り、データxは全て同じ分散(σ^2)と仮定しています。
この時、群内分散(MSW)は、母分散(σ^2)の不偏推定量となる性質があります。
また、群内分散に関連して、下記が成り立ちます。
これと下記の補足2点目(群間分散について)より、(上記の通り)両分散の比率がF統計量になります。
[群内分散に関連する性質]\\\\ \frac{(n-k)MSW}{σ^2}=\frac{1}{σ^2}\sum^{k}_{i=1}\sum^{n_i}_{j=1}(x_{ij}-\bar{x_i})^2\\\\ 〜\chi^2(n-k)
群間分散(MSB)は、”帰無仮説の時”、母分散(σ^2)の推定量
上記の通り、群内分散(MSW)は、(仮説の仮定が無くても)母分散の不偏推定量になるのに対して、群間分散(MSB)は、帰無仮説を仮定した時に、母分散(σ^2)の不偏推定量となる性質があります。
また、群間分散に関連して、下記が成り立ちます。
[群間分散に関連する性質]\\\\ \frac{(k-1)MSB}{σ^2}=\frac{1}{σ^2}\sum^{k}_{i=1}\sum^{n_i}_{j=1}(\bar{x_i}-\bar{x})^2\\\\ 〜\chi^2(k-1)