初めに

表題は、恐らく、多くの方が”検定の初歩“として学習してる検定です。
今回は、詳細は説明せず、概要として、”どんな集計をするのか?その集計はどのような分布になるのか?”にポイントを絞って説明します。
本記事ではt検定の話が出てきます。
t検定については下記記事も参考にしていただければと思います。

また、今回の検定について、”SASで検証した記事“(下記リンク)を作成していますので、そちらも参照いただくと理解が深まると思います。

「母平均の検定」の種類

「母平均の検定」は、(表題で「1群 / 2群」と表記している通り、)複数のケースについてそれぞれの集計方法が存在します
詳細は次の事項でそれぞれ説明しますが、まずはここで、全体像を説明します。
「母平均の検定」は、下記のケースが存在します。

  1. 1群:全体の平均値が検定対象
    1. ①母分散が既知
    2. ②母分散が未知
  2. 2群:2つの群のデータに対する検定
    1. 対応有り:「”対応関係のある2群の差(例:治療前後の差)の平均値」の検定
      1. ③母分散が既知
      2. ④母分散が未知
    2. 対応無し:「”対応関係の無い2群“の平均比較」の検定
      1. ⑤母分散が既知 (標準正規分布)
      2. 母分散が未知
        1. ⑦2群の母分散が同じ (t分布)
        2. ⑧2群の母分散が同じか不明 (t分布の近似)

(※1) 母分散が既知:Z値を作成 (標準正規分布)
(※2) 母分散が未知:t値を作成 (t分布)

それぞれの検定について①〜⑥の番号を振りました。
(下記詳細との位置付け確認用)
ご覧の通り、それぞれのカテゴリ(1群 / 2群 等)において、”母分散(σ^2)が既知 / 未知“の2ケースで検定方法が異なります。
その2ケース(母分散)について説明します。
まず前提として、各群のデータの分布は正規分布N(μ , σ^2)と仮定します。
そして、各検定で行う集計ですが、母分散σ^2を利用できる(=既知)ならば、(標本平均化の上)シンプルに標準化したいところであり、利用できない(=未知)ならば、t分布に(近似)するという形になります。
何故シンプルに標準化(正規分布)したいかというと、上記リンク「t検定」にて説明していますが、正規分布の方が裾野が狭く、“集計結果が稀か否か?”がよりはっきりするからです。

「母平均の検定」の各種詳細

前提知識

標本平均

各ケースで「標本平均」を利用します。
標本平均は下記の通りであり、所謂”取得データをシンプルに平均したもの“です。

標本平均 \bar{x}  = \frac{1}{n}\sum^{n}_{i=1}x_i \\\\
※n:データ数

そして、標本平均は、下記の分布になります。

x_i〜N(μ , σ^2)の標本平均は、\\\\
平均μ、分散σ/nの正規分布に従う。(データ数:n)\\\\
\bar{x} 〜N(μ , \frac{σ^2}{n})

また、「2群の対応無し」で必要な知識として、分布的に独立な2群について、「”各群の標本平均”の差」は下記の分布になります。

x_i〜N(μ_x , σ_x^2)、y_i〜N(μ_y , σ_y^2)は独立な分布とする。(データ数は m , n)\\\\
この時、各群の標本平均の差は下記の通りになる。\\\\
\bar{x}-\bar{y} 〜N(μ_x-μ_y , \frac{σ_x^2}{m}+\frac{σ_y^2}{n})

不偏分散

ざっくり言うと、”データの母分散”の推定値です。
下記のデータ集計値を指します。
データの集計値なので、母分散に一致するとは限りませんが、データの分布を踏まえると、下記集計値の平均が母分散になります。
平均が推定対象(母分散)とズレてない(偏ってない)ので「不偏分散」と呼ばれるイメージです。

不偏分散 s^2=\frac{\sum_{i=1}^n(x_i-\bar{x})^2}{n-1}

カイ二乗分布の再生性

※こちらは「”2群の対応無し”の”母分散が未知”」で使う性質ですが、比較的詳細な話です。局所的に使う感じであるため、余裕が無ければ飛ばしてください。

まず、前提として、「正規分布とその母分散からカイ二乗分布が作れる」性質があります。(下記リンク「F検定」を参照。)

カイ二乗分布には「再生性」という性質があり、端的にいうと、「独立な2つのカイ二乗分布は、その和もカイ二乗分布になる」というものです。
上記※のケースにて、t分布を更生するために、カイ二乗分布(に従う集計)を作ります。
その際にこの性質が使われます。
具体的には、(上記※のケースに合わせた表記で説明すると)下記の通りになります。

x_i〜N(μ_x , σ^2)、y_i〜N(μ_y , σ^2)は独立な分布とする。\\\\
(データ数は m , nであり、母分散は同じであることに注意。)\\\\
この時、カイ二乗分布に従う集計値Wが作れる。\\\\
W=(\sum^{m}_{i=1}\frac{(x_i-\bar{x})^2}{σ^2})-(\sum^{n}_{i=1}\frac{(y_i-\bar{y})^2}{σ^2}) 〜χ^2(m+n-2)

1群

前提

データの分布

データxは下記の通りに仮定します。

データx_i(i=1,...,n)は互いに独立で正規分布に従うと仮定する。\\\\
x_i〜N(μ , σ^2)

帰無仮説 / 対立仮説

検定の仮説は共通しており、下記の通りに仮説を立てます。
m は変数でなく、当事者が具体的な値を決めた上で検定を行います。
検定で使う集計値は、帰無仮説が正しいと仮定するため、標準化等では平均値としてmを使用します。

帰無仮説 H_0 : μ = m \\\\
対立仮説 H_1 :  μ ≠ m 

①母分散が既知

本ケースの場合は、σ^2が利用できるので、標本平均に対してシンプルに標準化を行います。
具体的には下記の通りに集計をして、その集計値が稀かどうかを調べます。

標準正規分布(Z)になるように集計する。\\\\
Z = \frac{\bar{x} - m}{\sqrt{\frac{σ^2}{n}}}

②母分散が未知

本ケースではσ^2の値が不明なので、上記①のようにσ^2を残すことはできません。
なので、σ^2が残らない集計、つまり、t分布に従うように集計を行います。

t分布(t)になるように集計する。\\\\
t = \dfrac{\bar{x}-m}{\sqrt{\frac{s^2}{n}}}\\\\
※但し、s^2は不偏分散。(上記「前提知識」を参照。)

2群

対応有り

前提

データの分布

「対応有り」の意味合いについて、イメージを説明します。
端的に言うと、”上記「1群」の各データが2種類のデータになる“ケースです。
つまり、データの群(種類)が2つあるが、(「対応無し」との違いは、)”片方の群の各データ“は”他方の群の1データ“と対応付いています。
なので、言い換えると、各群の分布は”独立では無い“ということです。
(「対応無し」は、逆のケース、つまり”各群が独立“のケースです。)

片方の群のデータをx_i (i=1,...,n)、他方を y_i(i=1,...,n)とする。\\\\
そして、"「d_i=(x_i-y_i)」の分布を正規分布に従うと仮定する"。\\\\
d_i = (x_i-y_i)〜N(μ , σ^2)
帰無仮説 / 対立仮説

検定の仮説は共通しており、下記の通りに仮説を立てます。
m は変数でなく、当事者が具体的な値を決めた上で検定を行います。
検定で使う集計値は、帰無仮説が正しいと仮定するため、標準化等では平均値としてmを使用します。

帰無仮説 H_0 : μ = m \\\\
対立仮説 H_1 :  μ ≠ m

③母分散が既知

本ケースの場合は、σ^2が利用できるので、標本平均に対してシンプルに標準化を行います。
具体的には下記の通りに集計をして、その集計値が稀かどうかを調べます。

標準正規分布(Z)になるように集計する。\\\\
Z = \frac{\bar{d} - m}{\sqrt{\frac{σ^2}{n}}}

④母分散が未知

本ケースではσ^2の値が不明なので、上記①のようにσ^2を残すことはできません。
なので、σ^2が残らない集計、つまり、t分布に従うように集計を行います。

t分布(t)になるように集計する。\\\\
t = \dfrac{\bar{d}-m}{\sqrt{\frac{s^2}{n}}}\\\\
※但し、s^2は不偏分散。(上記「前提知識」を参照。)

対応無し

前提

データの分布

「対応無し」は、分布的に無関係な2群のデータを考えます。
そして、(「対応あり」では2群の差に対して分布を仮定しましたが、)「対応無し」では各群毎に分布を仮定します。
また、集計では、2群それぞれの標本平均を用いるため、各群のデータ数は不一致でも検定が行えます。

片方の群のデータをx_i (i=1,...,m)、他方を y_i(i=1,...,n)とする。\\\\
各群の分布は、互いに独立な正規分布に従うと仮定する"。\\\\
x_i〜N(μ_x , σ_x^2)\\\\
y_i〜N(μ_y , σ_y^2)
帰無仮説 / 対立仮説

検定の仮説は共通しており、下記の通りに仮説を立てます。
m は変数でなく、当事者が具体的な値を決めた上で検定を行います。
検定で使う集計値は、帰無仮説が正しいと仮定するため、標準化等では平均値としてmを使用します。

帰無仮説 H_0 : μ_x - μ_y = m \\\\
対立仮説 H_1 :  μ_x - μ_y ≠ m

⑤母分散が既知

本ケースの場合は、”標本平均の差“を標準化します。
各群の母分散が利用できるので、標準化して集計は完了です。
具体的には下記の通りに集計をして、その集計値が稀かどうかを調べます。

標準正規分布(Z)になるように集計する。\\\\
Z = \frac{(\bar{x}-\bar{y}) - m}{\sqrt{\frac{σ_x^2}{m}+\frac{σ_y^2}{n}}}

母分散が未知

⑦2群の母分散が同じ

本ケースではσ^2の値が不明なので、上記①のようにσ^2を残すことはできません。
なので、σ^2が残らない集計、つまり、t分布に従うように集計を行います。
上記「前提知識」の「カイ二乗分布の再生性」を用いることで、下記の通りに集計でt分布を作ることができます。

t分布(t)になるように集計する。\\\\
t = \dfrac{(\bar{x}-\bar{y})-m}{\sqrt{s^2(\frac{1}{m}+\frac{1}{n})}}\\\\
※但し、s^2は「プールした分散」と呼ばれ、下記の通りである。\\\\
s^2 = \frac{1}{m+n-2}\{(\sum^{m}_{i=1}\frac{(x_i-\bar{x})^2}{σ^2})-(\sum^{n}_{i=1}\frac{(y_i-\bar{y})^2}{σ^2})\}
⑧2群の母分散が同じか不明

本ケースでは、両群の母分散が同じか不明のため、上記⑦のようにカイ二乗分布を作ることができません。
ここでは「Welchのt検定」と呼ばれる、t分布の”近似”を用いた検定を行います。
詳細について、本記事では省略します。

最後に

上記の通り、平均値の検定は複数のケースで集計方法が異なり、始めは混乱するかもしれません。
母分散が未知だと標準正規分布で検定できないが、t分布なら作れる“等、正規分布とt分布、カイ二乗分布の関連性(作成方法)を復習することで、”何故このケースでは、この集計が使われるのか?“が納得できるようになると思います。

By clear

データエンジニア・機械学習・分析等を主とし、Webアプリ開発も行っているフリーランスです。