2020/12/14 22:42 更新
散らばりの度合いについて
88 いいね ブックマーク
目次

はじめに

$n$個のデータ$x_1,\,\cdots,\,x_n$の相加平均$m$は

$$m=\frac1n\sum_{k=1}^{n}x_k$$

となります。このとき,散らばりの度合いとして分散$\sigma^2$を用います。

$$\sigma^2=\frac1n\sum_{k=1}^{n}(x_k-m)^2$$

前々から,

『どうして,散らばりの度合いとして,絶対値を用いないのだろう?』

と思っていました。本やネットを見ても,

『計算が複雑だから・・・』

とか書いてあるだけです。

『このコンピュータの時代に,計算が複雑だから行わないというのは違うだろ。。。』

と思っていました。

散らばり具合を絶対値で表したものは『平均偏差』と呼ばれていて,次のようになります。

$$T=\frac1n\sum_{k=1}^{n}|x_k-m|$$

twitterなどで色々教えてもらい,ようやく,『なぜ,分散を使うのか?』がわかりました。理由は

『分散と相加平均の計算の相性がいい』

ということでした。答えになっていないような感じですが,

『絶対値を使った散らばり具合(平均偏差)と相性がいい代表値は中央値(メジアン)』

だということがわかったので,納得です。

相加平均と分散

まず,次のような$x$の2次関数を考えます。

$$f(x)=\frac1n\sum_{k=1}^{n}(x-x_k)^2\cdots ①$$

$f(x)$の最小値を考えてみると,

$$\begin{aligned} f(x)&=\frac1n\{(x-x_1)^2+(x-x_2)^2+\cdots+(x-x_n)^2\}\\ &=\frac1n\left\{nx^2-2(x_1+x_2+\cdots+x_n)x+x_1^2+x_2^2+\cdots x_n^2\right\}\\ &=\left(x-\frac{x_1+x_2+\cdots+x_n}n\right)^2-\left(\frac{x_1+x_2+\cdots+x_n}n\right)^2+\frac{x_1^2+x_2^2+\cdots +x_n^2}n\\ &=\left(x-m\right)^2-m^2+\frac1n\sum_{k=1}^nx_k^n\\ &=(x-m)^2+\sigma^2 \end{aligned}$$

ということで,$\bm x$が相加平均のとき,最小値は分散$\bm{\sigma^2}$ということになります。

中央値(メジアン)と平均偏差

今度は,次のような$x$の絶対値の関数を考えます。

$$g(x)=\frac1n\sum_{k=1}^{n}|x-x_k|\cdots ②$$

$g(x)$の最小値を考えてみると,最小を与える$x$は$x_1,\,x_2,\,\cdots,\,x_n$を大小の順に並べた時の中央の値,すなわちメジアンとなります。メジアンを$M$とおくと,

$$\begin{aligned} g(x)&\geqq \frac1n\sum_{k=1}^{n}|M-x_k| \end{aligned}$$

となります。$\frac1n\sum_{k=1}^{n}|M-x_k|$は『平均偏差』と呼ばれています。

ということで,$\bm x$がメジアンのとき,最小値は平均偏差ということになります。

この絶対値を用いた散らばり度合いは『平均偏差』とか『絶対値平均誤差』と呼ばれています。しかし,代表値として『相加平均』を選んでいるものが多く,当然,計算上何も関連が見出せないので,『計算が複雑で・・・・』としてしまっている解説が多いのが現状です。

この絶対値を用いた散らばり度合いを『平均偏差』と呼んでいることもよくないのではないでしょうか。ネーミングが悪く,誤解の元であると感じました。『中央値偏差』とでもした方がいいのではないでしょうか。

最頻値(モード)と散らばり度合い

さまざまな代表値と相性が良い散らばり度合い(偏差)があると思われます。最頻値(モード)と相性のよい散らばり度合いもあるようです。(散らばり度合いを考える関数を『損失関数』と呼んでいました。)

損失関数$L(x_k,x)$は相加平均のときには

$$L(x_k,x)=(x_k-x)^2$$

でした。中央値のときは

$$L(x_k,x)=|x_k-x|$$

です。最頻値のときは$\varepsilon>0$として,

$$L(x_k,x)=\begin{cases}0 \qquad |x_k-x|<\varepsilon\\ 1 \qquad otherwise \end{cases}$$

として,

$$h(x)=\frac1n\sum_{k=1}^nL(x_k,x)$$

とすると,$x$が最頻値のとき,$h(x)$が最小となります。

相乗平均と散らばり度合い

これもできるのではないかと思い考えてみました。twitter上でも意見をもらいました。

データ$a_1,\,a_2,\,\cdots,\,a_n$の相乗平均を$K$とすると,このデータの散らばり度合いを

$$\frac1n\sum_{i=1}^{n}(\log a_i-\log K)^2$$

と考えます。すると,$x$の関数

$$f(x)=\frac1n\sum_{i=1}^{n}(\log x-\log a_i)^2$$

は$x=K$のとき、最小となり,この散らばり度合いが適当と考えられます。

他にも,調和平均・RMSと相性の良い散らばり具合(偏差)を探してみたいです!