概要

データから分散を求める際、統計を学び始めたばかりの方は、「平均との差の二乗和を “データ数 n で割る” 」形で集計するかと思います。
統計の勉強を進めると、割る数を n でなく (n-1) で割る集計で分散を求める考え方があることに気づくと思います。
統計を勉強してなくても、エクセルで分散を求める時、関数として「VAR.P」( n で割る)と「VAR.S」( n-1 で割る)があり、何で2種類あるのか、疑問に思うかもしれません。
データ数で割るという” n で割る”方法は(平均と同様の考え方で) 理解しやすいと思いますが、“n-1 で割る”方法は、何故存在するのでしょうか?

【結論】(n-1)で割る理由

まず前提ですが、統計学では、“n-1 で割る”分散を「不偏分散」と言います。
それに対して、“n で割る”分散を「標本分散」と言います。
n-1 で割る理由ですが、結論は、「各データを “独立且つ同一分布の確率変数” と見なした時、期待値が母分散になる」という性質があるからです。
「不偏分散」という名前は、“期待値が推定したいパラメータになる” という「不偏性」があることが由来です。
不偏性がある統計量 (確率変数からなる集計) を「不偏推定量」と言います。
それに対して、標本分散の期待値は、母分散と一致せず、具体的は、「”母分散の(1 – 1/n)倍”と一致」する形です。
つまり、期待値(推定値)が “母分散より少し小さい” 形になります。
標本分散は不偏推定量ではないが、最尤推定量になります。
(本題と別の話になるので、最尤推定量の説明は省略します。) 

【証明】不偏分散/標本分散の期待値

【前提】標本平均の期待値/分散

X_1,...,X_nを独立且つ同一分布(期待値:μ , 分散:σ^2)とする。\\\\
標本平均\bar{X}=\frac{1}{n}\sum^{n}_{i=1}X_iの期待値E[・]と分散V[・]は下記の通り。\\\\
 \\\\
E[\bar{X}]=μ\\\\
V[\bar{X}]=\frac{σ^2}{n}

【証明】不偏分散の期待値

X_1,...,X_nを独立且つ同一分布(期待値:μ , 分散:σ^2)とする。\\\\
不偏分散\frac{1}{n-1}\sum^{n}_{i=1}(X_i-\bar{X})^2の期待値E[・]は下記の通り。\\\\
 \\\\
E[\frac{1}{n-1}\sum^{n}_{i=1}(X_i-\bar{X})^2]\\\\
=\frac{1}{n-1}\sum^{n}_{i=1}E[(X_i-\bar{X})^2]\\\\
=\frac{1}{n-1}\sum^{n}_{i=1}E[\{(X_i-μ)-(\bar{X}-μ)\}^2]\\\\
=\frac{1}{n-1}\sum^{n}_{i=1}E[(X_i-μ)^2+(\bar{X}-μ)^2-2(X_i-μ)(\bar{X}-μ)]\\\\
=\frac{1}{n-1}\sum^{n}_{i=1}\{E[(X_i-μ)^2]+E[(\bar{X}-μ)^2]-2E[X_i\bar{X}-μX_i-μ\bar{X}+μ^2]\}\\\\
=\frac{1}{n-1}\sum^{n}_{i=1}[σ^2+\frac{σ^2}{n}-2\{(\frac{σ^2}{n}+μ^2)-μ^2-μ^2+μ^2\}]\\\\
=\frac{1}{n-1}\sum^{n}_{i=1}(\frac{n-1}{n}σ^2)\\\\
=σ^2\\\\

【証明】標本分散の期待値

上記の不偏分散の証明を用いて下記の通りに証明できます。

X_1,...,X_nを独立且つ同一分布(期待値:μ , 分散:σ^2)とする。\\\\
標本分散\frac{1}{n}\sum^{n}_{i=1}(X_i-\bar{X})^2の期待値E[・]は下記の通り。\\\\
 \\\\
E[\frac{1}{n}\sum^{n}_{i=1}(X_i-\bar{X})^2]\\\\
=E[\frac{n-1}{n}\frac{1}{n-1}\sum^{n}_{i=1}(X_i-\bar{X})^2]\\\\
=\frac{n-1}{n}E[\frac{1}{n-1}\sum^{n}_{i=1}(X_i-\bar{X})^2]\\\\
=\frac{n-1}{n}σ^2\\\\

By clear

データエンジニア・機械学習・分析等を主とし、Webアプリ開発も行っているフリーランスです。