初めに

本記事では統計学の「検定」について説明していきます。
理論を学び始めた方をターゲットに、“詳細の説明はせず、概要として押さえておきたい”ポイントをまとめていきます。

「検定」とは

ざっくり言うと「得られたデータについて、特定仮説を仮定した時の発生確率を調べる」ことです。

検定では、「帰無仮説」と「対立仮説」という2つの仮説を立て、「帰無仮説」を仮定した時の発生確率を調べます。
確認ポイントとしては、(「取得データは”稀な”値では無いだろう」という前提で)”取得データは帰無仮説の仮定において”稀な”値になってるか?” です。
その回答が「Yes」の場合は、”取得データは帰無仮説に合わない”と考えます。
「No」の場合は、”帰無仮説は否定できない”と考えます。
なので、検定によって大きな情報が得られるのは「Yes」の場合です。
※「No」の場合は、あくまで「帰無仮説のケースで”稀でない”」であって、「帰無仮説”以外”のケースでは合わない」を根拠付けるものでは無いからです。

検定で使う分布

検定では、取得データを集計し(帰無仮説の仮定で)特定の分布に従う形にします。
その集計データの分布は、下記分布が多いです。

  • 正規分布
  • t分布 (t検定)
  • F分布 (F検定)
  • χ二乗分布 (χ二乗検定)

検定の例

検定の1例を、ざっくりイメージできるような形で説明します。

平均値の検定(母分散が既知)

この検定は、簡単に言うと下記の通りです。

「取得データ x_i (i=1,...,n) の平均が特定値 μ であるか?」

帰無仮説、対立仮説は下記の通りです。

  • 帰無仮説:平均が μ
  • 対立仮説:平均が μ でない

この検定では、取得データを下記の通り集計し、(帰無仮説の仮定において)集計値 Z がどれ程”稀な”値であるか確認します。

集計結果:Z = \dfrac{(\bar{x} - μ)\sqrt{ n }}{σ}

この集計値は、(データ数 n が多いことを前提として、)標準正規分布に従うものとして考えます。
※正規分布として考える理由については、「中心極限定理」を調べてみてください。

取得データから作成した集計値が、「どれ程”分布の端に位置する”のか?」(=どれ程”稀”か?)を確認し、(対立仮説を考慮して)設けた基準よりも端に位置する場合は、帰無仮説を棄却します。(= “取得データは帰無仮説に合わない”と考えます)

最後に

統計学では様々なケースにおいて検定の話が出てきます。
本記事は、検定の基本的な考え方なので、しっかり押さえておきましょう。

By clear

データエンジニア・機械学習・分析等を主とし、Webアプリ開発も行っているフリーランスです。