はじめに
$n$個のデータ$x_1,\,\cdots,\,x_n$の相加平均$m$は
$$m=\frac1n\sum_{k=1}^{n}x_k$$となります。このとき,散らばりの度合いとして分散$\sigma^2$を用います。
$$\sigma^2=\frac1n\sum_{k=1}^{n}(x_k-m)^2$$前々から,
『どうして,散らばりの度合いとして,絶対値を用いないのだろう?』
と思っていました。本やネットを見ても,
『計算が複雑だから・・・』
とか書いてあるだけです。
『このコンピュータの時代に,計算が複雑だから行わないというのは違うだろ。。。』
と思っていました。
散らばり具合を絶対値で表したものは『平均偏差』と呼ばれていて,次のようになります。
$$T=\frac1n\sum_{k=1}^{n}|x_k-m|$$twitterなどで色々教えてもらい,ようやく,『なぜ,分散を使うのか?』がわかりました。理由は
『分散と相加平均の計算の相性がいい』
ということでした。答えになっていないような感じですが,
『絶対値を使った散らばり具合(平均偏差)と相性がいい代表値は中央値(メジアン)』
だということがわかったので,納得です。
相加平均と分散
まず,次のような$x$の2次関数を考えます。
$$f(x)=\frac1n\sum_{k=1}^{n}(x-x_k)^2\cdots ①$$$f(x)$の最小値を考えてみると,
$$\begin{aligned} f(x)&=\frac1n\{(x-x_1)^2+(x-x_2)^2+\cdots+(x-x_n)^2\}\\ &=\frac1n\left\{nx^2-2(x_1+x_2+\cdots+x_n)x+x_1^2+x_2^2+\cdots x_n^2\right\}\\ &=\left(x-\frac{x_1+x_2+\cdots+x_n}n\right)^2-\left(\frac{x_1+x_2+\cdots+x_n}n\right)^2+\frac{x_1^2+x_2^2+\cdots +x_n^2}n\\ &=\left(x-m\right)^2-m^2+\frac1n\sum_{k=1}^nx_k^n\\ &=(x-m)^2+\sigma^2 \end{aligned}$$ということで,$\bm x$が相加平均のとき,最小値は分散$\bm{\sigma^2}$ということになります。
中央値(メジアン)と平均偏差
今度は,次のような$x$の絶対値の関数を考えます。
$$g(x)=\frac1n\sum_{k=1}^{n}|x-x_k|\cdots ②$$$g(x)$の最小値を考えてみると,最小を与える$x$は$x_1,\,x_2,\,\cdots,\,x_n$を大小の順に並べた時の中央の値,すなわちメジアンとなります。メジアンを$M$とおくと,
$$\begin{aligned} g(x)&\geqq \frac1n\sum_{k=1}^{n}|M-x_k| \end{aligned}$$となります。$\frac1n\sum_{k=1}^{n}|M-x_k|$は『平均偏差』と呼ばれています。
ということで,$\bm x$がメジアンのとき,最小値は平均偏差ということになります。
この絶対値を用いた散らばり度合いは『平均偏差』とか『絶対値平均誤差』と呼ばれています。しかし,代表値として『相加平均』を選んでいるものが多く,当然,計算上何も関連が見出せないので,『計算が複雑で・・・・』としてしまっている解説が多いのが現状です。
この絶対値を用いた散らばり度合いを『平均偏差』と呼んでいることもよくないのではないでしょうか。ネーミングが悪く,誤解の元であると感じました。『中央値偏差』とでもした方がいいのではないでしょうか。
最頻値(モード)と散らばり度合い
さまざまな代表値と相性が良い散らばり度合い(偏差)があると思われます。最頻値(モード)と相性のよい散らばり度合いもあるようです。(散らばり度合いを考える関数を『損失関数』と呼んでいました。)
損失関数$L(x_k,x)$は相加平均のときには
$$L(x_k,x)=(x_k-x)^2$$でした。中央値のときは
$$L(x_k,x)=|x_k-x|$$です。最頻値のときは$\varepsilon>0$として,
$$L(x_k,x)=\begin{cases}0 \qquad |x_k-x|<\varepsilon\\ 1 \qquad otherwise \end{cases}$$として,
$$h(x)=\frac1n\sum_{k=1}^nL(x_k,x)$$とすると,$x$が最頻値のとき,$h(x)$が最小となります。
相乗平均と散らばり度合い
これもできるのではないかと思い考えてみました。twitter上でも意見をもらいました。
データ$a_1,\,a_2,\,\cdots,\,a_n$の相乗平均を$K$とすると,このデータの散らばり度合いを
$$\frac1n\sum_{i=1}^{n}(\log a_i-\log K)^2$$と考えます。すると,$x$の関数
$$f(x)=\frac1n\sum_{i=1}^{n}(\log x-\log a_i)^2$$は$x=K$のとき、最小となり,この散らばり度合いが適当と考えられます。
他にも,調和平均・RMSと相性の良い散らばり具合(偏差)を探してみたいです!