2020/09/23 21:52 更新
不偏分散はなぜ、$n-1$で割るのか?
779 いいね ブックマーク
目次

最近友人に、なぜ、不偏分散は$n-1$で割るのかと問われ、計算したらそうなるだけだよ、という話をした。私も高専時代に、よぉわからんなぁ、と思った気がする。おそらくこれは、不偏推定量と呼ばれる概念の理解の欠如によるものと思われる。それでは、少しずつ紐解いていこう。

ある母集団から$n$個の標本を計測することを考える。それぞれの計測結果を、$n$個の確率変数、$X_i(i=1...n)$として考える。これらの値はすべて、同じ確率分布に従うものとする。
$\mathrm{E}[X_i]=\mu,V[X_i]=\sigma^2$とする。

まず標本平均$\bar{X}=\dfrac{1}{n}\displaystyle \sum_{i=0}^n X_i$を考える。ここで重要なことは、標本平均も確率変数であるということである。したがって、期待値を計算する事ができる。期待値を計算すると、

$$\gdef\E{\mathrm{E}} \E[\bar{X}]=\dfrac{1}{n}\displaystyle \sum_{i=0}^n \E[X_i]=\mu$$

である。このように、ある確率変数の期待値が、母集団のパラメータ(母数)に等しいとき、その確率変数を母数の不偏推定量とよぶ。したがって、標本平均$\bar{X}$は母集団の平均である$\mu$の不偏推定量である。

次に、標本分散$S^2$を考える。定義より、

$$S^2=\frac{1}{n}\displaystyle \sum_{i=0}^n (X_i-\bar{X})^2$$

である。標本平均と同じように、標本分散も確率変数である。標本分散の期待値を計算すると、

$$\begin{aligned} \E[S^2]&=\frac{1}{n}\displaystyle \sum_{i=0}^n (X_i-\mu-\bar{X}+\mu)^2 \\ &=\E \left[ \frac{1}{n}\displaystyle \sum_{i=0}^n \left( (X_i-\mu)^2-2(X_i-\mu)(\bar{X}-\mu)+(\bar{X}-\mu)^2 \right) \right] \\ &=\sigma ^2-\frac{2}{n}\E \left[ (\bar{X}-\mu)\displaystyle \sum_{i=0}^n(X_i-\mu)\right]+ \mathrm{V}[\bar{X}] \\ &=\sigma ^2-\frac{2}{n}\E \left[ n(\bar{X}-\mu)^2\right]+ \mathrm{V}[\bar{X}] \\ &=\sigma ^2-\mathrm{V}[\bar{X}] =\sigma^2-\frac{\sigma^2}{n}\\ &=\frac{n-1}{n}\sigma^2 \end{aligned}$$

ということが分かる。つまり、標本分散の期待値は母集団の分散とは一致しないのである。
したがって、期待値の線形性を使ってこれを補正すると、

$$\E\left[\frac{n}{n-1}S^2\right]=\E\left[\frac{1}{n-1}\displaystyle \sum_{i=0}^n (X_i-\bar{X})^2\right]=\sigma^2$$

であり、

$$\frac{1}{n-1}\displaystyle \sum_{i=0}^n (X_i-\bar{X})^2$$

こそが分散の不偏推定量であることが分かる。
これが、標本から分散を推定するときに、$n-1$で割る所以である。