「分散分析」とは

概要

端的に言うと、「“特定の数値が、グループによって有意に異なるか?”を”分散を見て”調べる」という検定です。
分散分析には、「“一元配置”分散分析」と「“二元配置”分散分析」があります。
下記[詳細]では、シンプルな”一元配置”について説明を記載しています。
一元配置とは、”1つの観点のグループ分け”(=1因子)について分析することです。
(例 : 「性別」を因子とし、「男性」と「女性」をグループとして”身長の差異”を分析)
応用として”二元配置”があり、それは2因子について分析をします。
二元配置では、(一元配置と同様に)各因子単位で分析することに加え、2因子の相互作用(第一、第二因子のグループの組)も分析します。

(例: 「性別」と「地域」をそれぞれ因子とし、下記観点で、”身長の差異”を分析。

 ・「性別」の違いで身長の差異があるか?

 ・「地域」の違いで  〃   ?

 ・「性別」と「地域」の組の違いで、  〃   ?)

 

詳細

上記の通り、ここでは”一元配置”分散分析について説明します。
分散分析は検定の一種なので、仮説検証の形になっています。
特定数値を下記モデルであると仮定し、帰無仮説を「グループ間で差異は無い」として検定を行います。

n個の数値データx_{ij}を下記モデルと仮定する。\\\\
iはグループの番号を意味し、\\\\
ε_{ij}は互いに独立な正規分布N(0 , σ^2)に従う。\\\\
x_{ij} = μ + α_i + ε_{ij}\\\\
(※1)i=1,...,k、j=1,...,n_i\\\\
(※2)n=n_1+n_2+...+n_k\\\\
 \\\\
帰無仮説を「α_1=α_2=...=α_k=0」して、検定を行う。

この検定では、下記2種類の分散「群間分散」と「群内分散」を集計し、その比率を確認します。
その比率はF統計量(=F分布に従う)となり、基準値より大きい時に帰無仮説を棄却します。(つまり、「グループ間で有意な差がある」と判断します。)

グループiのデータ数をn_iとする。\\\\
(i=1,...,k、n_1+...+n_k=n)\\\\
また、グループi内の平均を\bar{x_i}(=\frac{1}{n_i}\sum^{n_i}_{j=1}x_{ij})、\\\\
全体の平均を\bar{x}(=\frac{1}{n}\sum^{k}_{i=1}\sum^{n_i}_{j=1}x_{ij})とする。\\\\
この時、群間分散、群内分散は下記の通り。\\\\
 \\\\
[群間分散]\\\\
MSB=\frac{1}{k-1}\sum^{k}_{i=1}\sum^{n_i}_{j=1}(\bar{x_i}-\bar{x})^2\\\\
(Mean Square Between)\\\\
 \\\\
[群内分散]\\\\
MSW=\frac{1}{n-k}\sum^{k}_{i=1}\sum^{n_i}_{j=1}(x_{ij}-\bar{x_i})^2\\\\
(Mean Square Within)
帰無仮説を仮定した時、F統計量は下記の通り。\\\\
 \\\\
F(k-1,n-k) = \frac{MSB}{MSW}

上記の通り、群間分散は”グループ平均と全体平均の差“を見ていて、群内分散は”データとグループ平均の差“を見ています。
各グループ内の数値がまとまっていれば群内分散は小さくなり、そして、グループ間で数値が離れていれば(各グループの平均がバラつくため)群間分散は大きくなります。
つまり、「F値が大きい」ことは、「各グループで数値がまとまっていて、且つ、グループ間で数値が離れている」を意味します。

補足

群内分散(MSW)は母分散(σ^2)の推定量

分散分析では、上記の通り、データxは全て同じ分散(σ^2)と仮定しています。
この時、群内分散(MSW)は、母分散(σ^2)の不偏推定量となる性質があります。
また、群内分散に関連して、下記が成り立ちます。
これと下記の補足2点目(群間分散について)より、(上記の通り)両分散の比率がF統計量になります。

[群内分散に関連する性質]\\\\
\frac{(n-k)MSW}{σ^2}=\frac{1}{σ^2}\sum^{k}_{i=1}\sum^{n_i}_{j=1}(x_{ij}-\bar{x_i})^2\\\\
〜\chi^2(n-k)

群間分散(MSB)は、”帰無仮説の時”、母分散(σ^2)の推定量

上記の通り、群内分散(MSW)は、(仮説の仮定が無くても)母分散の不偏推定量になるのに対して、群間分散(MSB)は、帰無仮説を仮定した時に、母分散(σ^2)の不偏推定量となる性質があります。

また、群間分散に関連して、下記が成り立ちます。

[群間分散に関連する性質]\\\\
\frac{(k-1)MSB}{σ^2}=\frac{1}{σ^2}\sum^{k}_{i=1}\sum^{n_i}_{j=1}(\bar{x_i}-\bar{x})^2\\\\
〜\chi^2(k-1)

By clear

データエンジニア・機械学習・分析等を主とし、Webアプリ開発も行っているフリーランスです。