はじめに

$n$個のデータ$x_1,\,\cdots,\,x_n$の相加平均$m$は

$$m=\frac1n\sum_{k=1}^{n}x_k$$

となります。このとき，散らばりの度合いとして分散$\sigma^2$を用います。

$$\sigma^2=\frac1n\sum_{k=1}^{n}(x_k-m)^2$$

前々から，

『どうして，散らばりの度合いとして，絶対値を用いないのだろう？』

と思っていました。本やネットを見ても，

『計算が複雑だから・・・』

とか書いてあるだけです。

『このコンピュータの時代に，計算が複雑だから行わないというのは違うだろ。。。』

と思っていました。

散らばり具合を絶対値で表したものは『平均偏差』と呼ばれていて，次のようになります。

$$T=\frac1n\sum_{k=1}^{n}|x_k-m|$$

twitterなどで色々教えてもらい，ようやく，『なぜ，分散を使うのか？』がわかりました。理由は

『分散と相加平均の計算の相性がいい』

ということでした。答えになっていないような感じですが，

『絶対値を使った散らばり具合（平均偏差）と相性がいい代表値は中央値（メジアン）』

だということがわかったので，納得です。

相加平均と分散

まず，次のような$x$の2次関数を考えます。

$$f(x)=\frac1n\sum_{k=1}^{n}(x-x_k)^2\cdots ①$$

$f(x)$の最小値を考えてみると，

$$\begin{aligned} f(x)&=\frac1n\{(x-x_1)^2+(x-x_2)^2+\cdots+(x-x_n)^2\}\\ &=\frac1n\left\{nx^2-2(x_1+x_2+\cdots+x_n)x+x_1^2+x_2^2+\cdots x_n^2\right\}\\ &=\left(x-\frac{x_1+x_2+\cdots+x_n}n\right)^2-\left(\frac{x_1+x_2+\cdots+x_n}n\right)^2+\frac{x_1^2+x_2^2+\cdots +x_n^2}n\\ &=\left(x-m\right)^2-m^2+\frac1n\sum_{k=1}^nx_k^n\\ &=(x-m)^2+\sigma^2 \end{aligned}$$

ということで，$\bm x$が相加平均のとき，最小値は分散$\bm{\sigma^2}$ということになります。

中央値（メジアン）と平均偏差

今度は，次のような$x$の絶対値の関数を考えます。

$$g(x)=\frac1n\sum_{k=1}^{n}|x-x_k|\cdots ②$$

$g(x)$の最小値を考えてみると，最小を与える$x$は$x_1,\,x_2,\,\cdots,\,x_n$を大小の順に並べた時の中央の値，すなわちメジアンとなります。メジアンを$M$とおくと，

$$\begin{aligned} g(x)&\geqq \frac1n\sum_{k=1}^{n}|M-x_k| \end{aligned}$$

となります。$\frac1n\sum_{k=1}^{n}|M-x_k|$は『平均偏差』と呼ばれています。

ということで，$\bm x$がメジアンのとき，最小値は平均偏差ということになります。

この絶対値を用いた散らばり度合いは『平均偏差』とか『絶対値平均誤差』と呼ばれています。しかし，代表値として『相加平均』を選んでいるものが多く，当然，計算上何も関連が見出せないので，『計算が複雑で・・・・』としてしまっている解説が多いのが現状です。

この絶対値を用いた散らばり度合いを『平均偏差』と呼んでいることもよくないのではないでしょうか。ネーミングが悪く，誤解の元であると感じました。『中央値偏差』とでもした方がいいのではないでしょうか。

最頻値（モード）と散らばり度合い

さまざまな代表値と相性が良い散らばり度合い（偏差）があると思われます。最頻値（モード）と相性のよい散らばり度合いもあるようです。（散らばり度合いを考える関数を『損失関数』と呼んでいました。）

損失関数$L(x_k,x)$は相加平均のときには

$$L(x_k,x)=(x_k-x)^2$$

でした。中央値のときは

$$L(x_k,x)=|x_k-x|$$

です。最頻値のときは$\varepsilon>0$として，

$$L(x_k,x)=\begin{cases}0 \qquad |x_k-x|<\varepsilon\\ 1 \qquad otherwise \end{cases}$$

として，

$$h(x)=\frac1n\sum_{k=1}^nL(x_k,x)$$

とすると，$x$が最頻値のとき，$h(x)$が最小となります。

相乗平均と散らばり度合い

これもできるのではないかと思い考えてみました。twitter上でも意見をもらいました。

データ$a_1,\,a_2,\,\cdots,\,a_n$の相乗平均を$K$とすると，このデータの散らばり度合いを

$$\frac1n\sum_{i=1}^{n}(\log a_i-\log K)^2$$

と考えます。すると，$x$の関数

$$f(x)=\frac1n\sum_{i=1}^{n}(\log x-\log a_i)^2$$

は$x=K$のとき、最小となり，この散らばり度合いが適当と考えられます。

他にも，調和平均・RMSと相性の良い散らばり具合（偏差）を探してみたいです！