前提知識

常微分方程式 (変数分離型)
エントロピー

記法

$\log$は底が$\mathrm{e}$の自然対数
${\displaystyle \Delta^{k} := \left\{ (p_1,\dots,p_k) \in [0,1]^{k} \mathrel{}\middle|\mathrel{} \sum_{i=1}^{k} p_{i} = 1 \right\}}$
${\displaystyle \Delta^{*} := \bigcup_{k \in \mathbb{Z}_{>0}} \Delta^{k}}$
$H \colon \Delta^{*} \longrightarrow \mathbb{R}$ (エントロピー関数)

目標 (定理紹介)

この記事での目標は，次の定理を示すことです．

定理: $\hat{H} \colon \Delta^{*} \longrightarrow \mathbb{R}$が次の4つの条件を満たすならば，$\hat{H} = H$となる．:

$\hat{H}$は対称な関数．
$\hat{H}\left(\dfrac 1 2 , \dfrac 1 2\right) = 1$．
$\hat{H}(p, 1-p)$は$p$に関して連続．
$\hat{H}(p_1,\dots,p_n) = \hat{H}(p_1+p_2, p_3, \dots, p_n) + (p_1 + p_2) \hat{H}\left( \dfrac{p_1}{p_1+p_2}, \dfrac{p_2}{p_1+p_2} \right)$．

ちなみに，エントロピー関数$H$は上の4つの条件を満たします．
したがって，エントロピー関数を上の4つの条件で特徴付けることができるということになります．

次の章以降で具体的にこの定理の証明を見ていきましょう．

証明の概略

まず，4.の性質を見ると，$n$変数に対する値が$n-1$変数に対する値と$2$変数に対する値とに分けられることが分かります．したがって$2$変数に対する$\hat{H}$の値と$H$の値が一致していれば，帰納的に$3$変数，$4$変数，$\dots$と拡張して任意の正整数個の変数に対して$\hat{H} = H$が成り立つことが示されます．

このことから，以下では$2$変数のときに$\hat{H} = H$が成り立つこと，より正確には，

$$\left. \hat{H} \right|_{\Delta^{2}} = \left. H \right|_{\Delta^{2}}$$

が成り立つことを示します．

ちなみに$1$変数のときはというと，$\Delta^{1} = \{1\}$であって，4.をうまく使うことで$\hat{H}(1) = H(1) = 0$が得られることから，$\hat{H} |_{\Delta^{1}} = H|_{\Delta^{1}}$は成り立ちます．

さて，与えられた4つの条件をうまく使って$\hat{H}|_{\Delta^{2}} = H |_{\Delta^{2}}$を示していきましょう．

証明

$h(t) := \hat{H}(t, 1-t)$とおきます．
条件1. より，$h(1-t) = \hat{H}(1-t, t) = \hat{H}(t,1-t) = h(t)$．
条件2. より，$h(\frac 12) = 1$．
条件3. より，$h(t)$は$C^{0}$級関数（連続関数）．
条件4. と条件1. より，

$$\begin{aligned} \hat{H}(p_1, p_2, 1-p_1-p_2) &= \hat{H}(p_1, 1-p_1-p_2,p_2) \\ &= \hat{H}(1-p_2,p_2) + (1-p_2) \hat{H}\left( \frac{p_1}{1-p_2}, \frac{1-p_1-p_2}{1-p_2} \right) \\ &= h(p_2) + (1-p_2) h \left( \frac{p_1}{1-p_2} \right). \end{aligned}$$

また，対称性より，

$$\hat{H}(p_1, p_2, 1-p_1-p_2) = h(p_1) + (1-p_1) h \left( \frac{p_2}{1-p_1} \right).$$

つまり，

$$h(p_2) + (1-p_2) h \left( \frac{p_1}{1-p_2} \right) = h(p_1) + (1-p_1) h \left( \frac{p_2}{1-p_1} \right). \tag{甲}$$

$h$は$C^{0}$級関数であるので，この両辺を$p_{2} \in [0, 1-p_{1}]$上で積分できます．:

$$\def\dx#1{\,\mathrm{d}#1} (1-p_{1}) h(p_{1}) + (1-p_{1}) \int_{0}^{1-p_{1}} h \left( \frac{p_{2}}{1-p_{1}} \right) \dx{p_{2}} = \int_{0}^{1-p_{1}} h (p_{2}) \dx{p_{2}} + \int_{0}^{1-p_{1}} (1-p_{2}) h \left( \frac{p_{1}}{1-p_{2}} \right) \dx{p_{2}}.$$

この積分については変数変換を施すことでもう少し簡単にすることが可能で，結局，

$$\def\dx#1{\,\mathrm{d}#1} (1-p_{1}) h(p_{1}) + (1-p_{1})^{2} \int_{0}^{1} h (t) \dx{t} = \int_{0}^{1-p_{1}} h (t) \dx{t} + p_{1}^{2} \int_{p_{1}}^{1} \frac{h(t)}{t^{3}} \dx{t} \tag{乙}$$

となります．

ここで，$p_{1}\neq 1$とすると，

$$\def\dx#1{\,\mathrm{d}#1} h(p_{1}) = - (1-p_{1}) \int_{0}^{1} h (t) \dx{t} + \frac{1}{1-p_{1}}\int_{0}^{1-p_{1}} h (t) \dx{t} + \frac{p_{1}^{2}}{1-p_{1}} \int_{p_{1}}^{1} \frac{h(t)}{t^{3}} \dx{t}$$

となりますが，この式の左辺は$(0,1)$上で$C^{0}$級関数です．右辺はその積分が入っているので同区間で$C^{1}$級関数です．つまり，$h(t)$は$C^{1}$級関数ということになります．同じように続けることで，$h(t)$が$C^{\infty}$級関数であることが分かります．これに基づいて式(乙)を$p_{1}$について微分をします．:

$$\def\dx#1{\,\mathrm{d}#1} -h(p_{1}) + (1-p_{1}) h^{\prime}(p_{1}) - 2 (1-p_{1}) \int_{0}^{1} h(t)\dx{t} = - h(1-p_{1}) + 2 p_{1} \int_{p_{1}}^{1} \frac{h(t)}{t^{3}} \dx{t} - \frac{h(p_{1})}{p_{1}} $$

対称性に注意して整理すると，次の式を得ます．:

$$\def\dx#1{\,\mathrm{d}#1} p_{1} \int_{p_{1}}^{1} \frac{h(t)}{t^{3}} \dx{t} = \frac{1}{2} \left( (1-p_{1}) h^{\prime}(p_{1}) + \frac{h(p_{1})}{p_{1}} - 2 (1-p_{1}) \int_{0}^{1} h(t)\dx{t} \right).$$

これを式(乙)に代入して整理すると，

$$\def\dx#1{\,\mathrm{d}#1} (1-2p_{1})h(p_{1}) + 2 (1-p_{1}) \int_{0}^{1} h(t) \dx{t} = 2 \int_{0}^{1-p_{1}} h(t) \dx{t} + p_{1} (1-p_{1}) h^{\prime}(p_{1}).$$

これを更に$p_{1}$で微分して，式を整理すると，

$$\def\dx#1{\,\mathrm{d}#1} h^{\prime\prime}(p_{1}) = -\frac{2}{p_{1}(1-p_{1})} \int_{0}^{1} h(t) \dx{t}.$$

ここで，$\def\dx#1{\,\mathrm{d}#1} -2\int_{0}^{1} h(t) \dx{t}$は定数ですので，これを$C$とおきます．すると，

$$h^{\prime\prime}(p_{1}) = \frac{C}{p_{1}(1-p_{1})}.$$

この式は「変数分離型」と呼ばれる常微分方程式になっています．
高校の積分の授業でも大活躍の部分分数分解も使ってその解き方に添って積分すると，

$$\begin{aligned} h^{\prime\prime}(p_{1}) &= C \left( \frac{1}{p_{1}} + \frac{1}{1-p_{1}} \right), \\ h^{\prime}(p_{1}) &= C ( \log p_{1} - \log (1-p_{1}) ) + D_{1}, \\ h(p_{1}) &= C ( p_{1} \log p_{1} + (1 - p_{1}) \log (1-p_{1})) + D_{1} p_{1} + D_{2}. \\ \end{aligned}$$

さて，関数の形は定まったので，今度は初期条件を考えてみましょう．式(甲)に戻ります．:

$$h(p_2) + (1-p_2) h \left( \frac{p_1}{1-p_2} \right) = h(p_1) + (1-p_1) h \left( \frac{p_2}{1-p_1} \right). \tag{甲}$$

ここに$p_{2} = 0$を代入すると，$h(0) = 0$を得ます．対称性があったので，$h(1) = 0$も成り立ちます．これと条件2.から，以下の3つの初期条件が得られます．:

$h(0) = D_{2} = 0$
$h(1) = D_{1} = 0$
$h \left( \dfrac{1}{2} \right) = -C \log 2 + \dfrac{1}{2} D_{1} + D_{2} = 1$

これより$C = - \dfrac{1}{\log 2}$，$D_{1} = D_{2} = 0$と求まります．

これまでの結果をまとめると，

$$\begin{aligned} \hat{H}(p_{1} , 1-p_{1}) &= h(p_{1}) \\ &= - p_{1} \log_{2} p_{1} - (1 - p_{1}) \log_{2} (1-p_{1}) \\ &= H(p_{1}, 1- p_{1}) \end{aligned}$$

となり，示したかった$\hat{H}|_{\Delta^{2}} = H |_{\Delta^{2}}$が示されました．

終わりに

長い証明でしたが，これでエントロピー関数の特徴付けの定理を示すことができました．
エントロピーは情報理論の中でも最も初歩的で最も重要な量とも言われています．
その値が，4つの単純な条件から示されるのは非常に面白いと思います．
ひとまず，今回はこれ以上です．
お疲れさまでした．