概要

「カテゴリ値を持つ確率変数(因子)について、そこから得られた度数表を用いてその確率分布を調べる」という目的の検定について説明します。
それらは全て、(漸近的に)カイ二乗分布に従うような集計を行い、その集計値で結論付けをします。
カイ二乗検定自体については下記リンクを参照ください

各種検定

表題の検定は以下の3種類が存在します。それぞれの特徴について説明していきます。

  1. 適合度の検定:確率分布が特定値であるか?
  2. 独立性の検定:2つの確率分布が独立であるか?
  3. 斉次性の検定:複数の確率分布について、分布が同じであるか?

前提】対数尤度比の漸近分布

3種の検定で用いる性質なので、初めに整理しておきましょう。

尤度比

まず、「尤度」について説明します。
対象データが”パラメータを持つ特定の分布“に従う事を前提とします。
尤度(関数)」は、「“取得データを固定し、パラメータを変数と見なす”確率(密度)関数」を指します。

※取得データを用いて求めた、”尤度を最大にするパラメータ値を、「最尤推定量」と呼びます。それはつまり、「取得データが最(尤)もらしいと見なす時のパラメータ」という事です。

そして「尤度比」は、(基本的に)下記2つの尤度の比(①÷②)を指します。
つまり、分布パラメータを動かせる範囲が異なる尤度の比です。

 ①帰無仮説の範囲内(分布パラメータ)における尤度の最大値

 ②全範囲(分布パラメータ)における尤度の最大値

 λ(尤度比) = \frac{max_{θ\in{Θ_0}}L(θ|x)}{max_{θ\in{Θ}}L(θ|x)} \\\\
(※1)L(θ|x):尤度(関数)。パラメータθを変数とした確率(密度)関数。\\\\
(※1)Θ_0:帰無仮説のパラメータ空間\\\\
(※2)Θ:パラメータ空間全体

尤度比は(少し加工した上で)表題以外の検定でも使われる指標であり、値の範囲としては、(分母分子共に確率値なので)0以上1以下です。
0に近ければ、(上記①が相対的に小さい形であるため、)”帰無仮説では取得データが非常に稀であった“という形になり、(“取得データは稀でないはず“という想定が前提にあるので、)つまりは、帰無仮説を棄却という判断に至ります。

対数尤度比の漸近分布

上記尤度比の対数は、漸近的に下記の分布になる性質があります。
これは、表題の各検定で用いる性質です。

漸近的(データ数)に下記が成り立つ。但し、λは尤度比。\\\\
-2log(λ) 〜\chi^{2}(t-s)\\\\
※t:パラメータ空間全体(Θ)の自由度\\\\
※s:帰無仮説のパラメータ空間(Θ_0)の自由度

自由度は、ざっくりいうと”自由に値が設定できるパラメータ数“です。

「自由に値が設定できるパラメータ数」(※1)とはどういう意味か?
イメージしやすいものとして、「”m個のカテゴリを確率分布として、それぞれの確率をパラメータと捉える“ケースを考えてみます。

この時、内(m-1)個の確率は、(確率という前提要件(0以上1以下)を満たす上で)自由に設定できますが、残り1個は、確率の定義(総和が1)より一意に決まります。
なので、このケースにおける上記(※1)は m-1 となります。
※厳密に知りたい方は、「Wilks の定理」を調べてみてください。

【カイ二乗値】観測度数と期待度数の集計(☆)

結論をいうと、下記集計値が上記の対数尤度比「-2logλ」に近似できます。
検定を行う際は、下記集計を行い、それが、”上記のカイ二乗分布であると見なして“検定を行います。
値が大きい場合は、期待値と観測値の差が大きい事を意味するため、”設ける基準値を超えたら帰無仮説を棄却“します。

各事象(n個)の発生回数について、\\\\
観測結果をO_i(i=1,...,n)、\\\\
(帰無仮説を仮定した時の)期待値をE_i(i=1,...,n)とした時、\\\\
\sum_{i=1}^{n}\frac{(O_i-E_i)^2}{Ei}≒-2log(λ)

適合度の検定

適合度の検定は、帰無仮説を「特定の確率分布である」(各カテゴリの確率が特定の値である)として検定を行います。
例えば、「このサイコロは各面が等確率で出るか?歪んでないか?」を調べるとしたら、帰無仮説を「全て確率が1/6である」として検定を行います。
検定は、上記(☆)を集計し、その値が基準値より大きいか調べる形で行います。

集計値を得た際、その分布(カイ二乗)の自由度はどうなるか?
パラメータ空間全体では、n個のうち1個は(確率総和が1のため)残りの(n-1)によって決まるので、自由度は(n-1)。
帰無仮説では、全て特定値なので、自由度は0となります。

カテゴリ数がnの時、\\\\
Θの自由度:n-1\\\\
Θ_0の自由度:0 \\\\
なので、分布の自由度は、\\\\
(n-1)-0 = n-1

独立性の検定

2種類のカテゴリ(確率)変数が独立であるか」を調べる検定です。
帰無仮説は「独立である」とします。
集計値(☆)の自由度ですが、帰無仮説では各変数毎に分布を考える形のため、下記の通りとなります。

2つの変数におけるカテゴリ数がそれぞれn,mの時、\\\\
Θの自由度:nm-1\\\\
Θ_0の自由度:(n-1)+(m-1) \\\\
なので、分布の自由度は、\\\\
(nm-1)-((n-1)+(m-1))=(n-1)(m-1)

斉次性の検定

(同じカテゴリ値を持つ)複数のカテゴリ変数が同じ確率分布であるか」を調べる検定です。
帰無仮説は「同じ分布である」とします。
集計値(☆)の自由度ですが、パラメータ空間全体では各変数毎に確率分布を考え、また、帰無仮説では同じ確率分布を前提とするので1つの分布を考え、結果下記の通りとなります。

n個の変数におけるカテゴリ数がmの時、\\\\
Θの自由度:n(m-1)\\\\
Θ_0の自由度:m-1 \\\\
なので、分布の自由度は、\\\\
n(m-1)-(m-1)=(n-1)(m-1)

By clear

データエンジニア・機械学習・分析等を主とし、Webアプリ開発も行っているフリーランスです。