2023/02/12 17:05 更新
凸函数と微分可能性の微妙な関係
目次

凸函数と微分可能性の微妙な関係

本稿では凸函数の微分可能でない点は高々可算個であることを示す。証明は本質的に、非減少函数の不連続点が高々可算個であることを主張するFrodaの定理に依る。ややマニアックな話題だが、調べた限り纏められた記述が少なかったので紹介したい。

簡単のため、考察する函数は開区間上で定義されているものとして、端点については考えないものとする。

凸函数と非減少函数

ます函数$f$の傾きを表す量として
$\angle f(a, b)=\frac{f(b)-f(a)}{b-a}$
と定める。

定義 $f$が凸(convex)であるとは、$a\lt b$及び$0\lt t\lt 1$について
$f((1-t)a+tb)\le (1-t)f(a)+tf(b)$
が成り立つことをいう。下に凸とも呼ばれる。^[不等号が逆の場合は凹(concave)や上に凸とも呼ばれる。]

三つ組$p\lt q\lt r$について$t=(q-p)/(r-p)$とすれば上の条件は
$f(q)\le\frac{r-q}{r-p}f(p)+\frac{q-p}{r-p}f(r)$
と表せる。これを整理すると
$\begin{aligned} f(q)&\le f(p)+\angle f(p, r)(q-p), \\ f(q)&\le f(r)+\angle f(p, r)(q-r) \end{aligned}$
となり、2点$(p, f(p)), (r, f(r))$を結ぶ直線の下側を$f$が通ることを表している。

命題 函数$f$について以下は同値。$p\lt q\lt r$は任意とする。

  • (a) $f$は凸である。
  • (b) $\angle f(p, q)\le\angle f(p, r)$が成り立つ。
  • (c) $\angle f(p, q)\le\angle f(q, r)$が成り立つ。
  • (d) $\angle f(p, r)\le\angle f(q, r)$が成り立つ。

(証明)(b)を書き下すと
$\begin{aligned} \angle f(p, q)\le\angle f(p, r) &\iff (f(q)-f(p))(r-p)\le (f(r)-f(p))(q-p)\\ &\iff (r-p)f(q)\le (r-q)f(p)+(q-p)f(r) \end{aligned}$
より同値。(c)や(d)も同様。$\square$

定義 $f$が非減少(non-decreasing)であるとは、$a\lt b$について$f(a)\le f(b)$が成り立つことをいう。単調増大、あるいは広義単調増大とも呼ばれる。

命題 $f$は微分可能とする。以下は同値。

  • (a) $f$は凸である。
  • (b) $f^{\prime}$は非減少である。

(証明)$f$が凸なら$p\lt q\lt r$について
$\angle f(p, q)\le\angle f(p, r)\le\angle f(q, r)$
が成り立つ。左の不等式は
$\frac{f(q)-f(p)}{q-p}\le\frac{f(r)-f(p)}{r-p}$
だから$q\to p$として$f^{\prime}(p)\le\angle f(p, r)$を得る。右の不等式は
$\frac{f(r)-f(p)}{r-p}\le\frac{f(r)-f(q)}{r-q}=\frac{f(q)-f(r)}{q-r}$
だから$q\to r$として$\angle f(p, r)\le f^{\prime}(r)$を得る。従って$f^{\prime}$は非減少。

一方、平均値の定理より$\angle f(p, q)=f^{\prime}(\xi)$かつ$\angle f(q, r)=f^{\prime}(\eta)$となる$p\lt\xi\lt q\lt\eta\lt r$が存在する。$f^{\prime}$が非減少なら$f^{\prime}(\xi)\le f^{\prime}(\eta)$より$\angle f(p, q)\le\angle f(q, r)$が従う。$\square$

以上より凸函数と非減少函数は近しい関係にあることが分かる。この事実を微分可能でない場合にも広げたい。

凸函数の連続性と左微分および右微分

命題 凸函数は連続である。

(証明)右連続性と左連続性を示せば十分である。($x_{n}\to x$について$f(x_{n})$が$f(x)$に収束しないと仮定する。ある$\varepsilon\gt 0$が取れて、任意の$N$に対し$n=n(N)\ge N$が存在して$\vert f(x_{n})-f(x) \vert\ge\varepsilon$が成り立つ。ここで$x_{n}\ge x$か$x_{n}\le x$のうち無限個存在する方の部分列を取れば、右または左連続性に反する。)

$f$を凸函数とする。三つ組$p\lt x\lt b$と$a\lt p\lt x$について
$\begin{aligned} f(x) &\le\frac{b-x}{b-p}f(p)+\frac{x-p}{b-p}f(b), \\ f(p) &\le\frac{x-p}{x-a}f(a)+\frac{p-a}{x-a}f(x) \end{aligned}$
が成り立つ。これを整理すると
$\frac{x-a}{p-a}f(p)-\frac{x-p}{p-a}f(a)\le f(x)\le\frac{b-x}{b-p}f(p)+\frac{x-p}{b-p}f(b)$
より$x=p+\delta$と置けば
$\delta\frac{f(p)-f(a)}{p-a}\le f(p+\delta)-f(p)\le\delta\frac{f(b)-f(p)}{b-p}$
となる。$M=\max\lbrace \vert \angle f(a, p) \vert, \vert \angle f(p, b) \vert \rbrace$は$\delta$に依らず
$\vert f(p+\delta)-f(p) \vert\le\delta M$
より$\delta\to 0$とすれば$f$の$p$での右連続性が従う。左連続性も同様である。$\square$

命題 凸函数$f$について、右微分$D_{+}f$と左微分$D_{-}f$が存在する。

(証明)$a\lt p\lt q\lt r\lt b$について、$\angle f(a, q)\le\angle f(p, q)$より$g(x):=\angle f(x, q)$は$q$の左側で非減少、同様に$\angle f(q, r)\le\angle f(q, b)$より$h(y):=\angle f(q, y)$は$q$の右側で非減少である。特に$x\lt q\lt y$より$g(x)\le h(y)$である。ここで増大列$x_{n}\nearrow q$と減少列$y_{n}\searrow q$を取れば
$g(x_{n})\le g(x_{n+1})\le\dotsb\le h(y_{n+1})\le h(y_{n})$
が成り立つ。$I_{n}=\lbrack g(x_{n}), h(y_{n}) \rbrack$に対し区間縮小法より共通部分$\lbrack d_{-}, d_{+} \rbrack$が存在する。$d_{-}$が左微分、$d_{+}$が右微分であることは定義より従う。$\square$

凸函数は連続なだけでなく、右微分と左微分を持つことが分かった。微分可能であることと、右微分と左微分が存在して一致することは同値である。従って、微分可能でない点を右微分と左微分が異なる点に換言することができる。

凸函数$f$について、四つ組$p\lt q\le r\lt s$に対して
$\angle f(p, q)\le\angle f(r, s)$
が成り立つ。実際$q=r$のときは三つ組$p\lt q\lt s$に関する不等式より
$\angle f(p, q)\le\angle f(p, s)\le\angle f(q, s)=\angle f(r, s)$
を得る。$u\lt r$のときも同様に$p\lt q\lt r, q\lt r\lt s$に関する不等式
$\begin{aligned} \angle f(p, q)&\le\angle f(p, r)\le\angle f(q, r), \\ \angle f(q, r)&\le\angle f(q, s)\le\angle f(r, s) \end{aligned}$
より従う。ここで$q\searrow p+0, s\searrow r+0$とすると
$D_{+}f(p)\le D_{+}f(r)$
すなわち$D_{+}f$は非減少である。

一方$g(x):=f(-x)$もまた凸函数であり、
$\begin{aligned} D_{-}f(q)&=\lim_{x\nearrow q-0}\frac{f(q)-f(x)}{q-x}=\lim_{x\nearrow q-0}-\frac{g(-q)-g(-x)}{(-q)-(-x)} \\ &=-\lim_{(-x)\searrow (-q)+0}\frac{g(-q)-g(-x)}{(-q)-(-x)}=-D_{+}g(-q)\end{aligned}$
が成り立つ。よって$a\lt b$について$-b\lt-a$より$D_{+}g(-b)\le D_{+}g(-a)$よって$D_{-}f(a)\le D_{-}f(b)$を得る。すなわち$D_{-}f$も非減少である。

補題 凸函数$f$について、$D_{+}f\ge 0$なら$f$は非減少である。

(証明)$a\lt b$について$f(a)\gt f(b)$が成り立つと仮定する。$a\lt c\lt b$について
$\angle f(a, c)\le\angle f(a, b)=\frac{f(b)-f(a)}{b-a}\lt 0$
である。$c\searrow a+0$とすれば$D_{+}f(a)\lt 0$である。$\square$

定理 凸函数$f$について以下が成り立つ。

  • $D_{+}f$および$D_{-}f$は非減少である。
  • $D_{+}f$は右連続、$D_{-}f$は左連続である。
  • $D_{-}f\le D_{+}f$が成り立つ。

(証明)$D_{+}f$が非減少であることは既に述べた。$a$で右連続であることを示そう。$\alpha:=\lim_{x\searrow a+0}D_{+}f(x)$と置く。$D_{+}f$は非減少なので$a\lt t$について
$D_{+}f(a)\le\alpha\le D_{+}f(t)$
が成り立つ。ここで$g(t):=f(t)-\alpha t$を考えると、$D_{+}g(t)\ge 0$より補題から$g$は非減少である。故に$a\le x\lt y$について
$f(x)-\alpha x=g(x)\le g(y)=f(y)-\alpha y$
が成り立つ。$f$は連続だから$x\to a$として$\alpha(y-a)\le f(y)-f(a)$を得る。$y\searrow a+0$として$\alpha\le D_{+}f(a)$を得る。以上より$\alpha=D_{+}f(a)$である。

$a\lt x\lt b$について$\angle f(a, x)\le\angle f(x, b)$だから$a\nearrow x-0$として$D_{-}f(x)\le\angle f(x, b)$を得る。$b\searrow x+0$として$D_{-}f(x)\le D_{+}f(x)$を得る。$\square$

凸函数の微分可能でない点

前節の定理を踏まえると、凸函数$f$について四つ組$x\lt a\lt b\lt y$は
$\frac{f(a)-f(x)}{a-x}\le\frac{f(y)-f(b)}{y-b}$
を満たすから、$a\searrow x+0, b\nearrow y-0$として
$D_{-}f(x)\le D_{+}f(x)\le D_{-}f(y)\le D_{+}f(y)$
という不等式を得る。

定理 (Froda)非減少函数の不連続点は高々可算個である。

(証明)区間$I=\lbrack 0, 1 )$で高々可算個であることを示せば十分である。$f$は非減少とする。左極限と右極限を
$\begin{aligned} f_{-}(a)&:=\lim_{x\nearrow a-0}f(x), & f_{+}(a)&:=\lim_{x\searrow a+0}f(x) \end{aligned}$
とすると$f$は非減少なので$f_{-}(a)\le f_{+}(a)$である。ここで$A:=\lbrace a : f_{+}(a)-f_{-}(a)\gt 0 \rbrace$として、更に
$A_{n}:=\left\lbrace a : f_{+}(a)-f_{-}(a)\gt \frac{f(1)-f(0)}{n} \right\rbrace$
と置けば、$\vert A_{n} \vert\le n$でなければならない。一方$A=\bigcup_{n}A_{n}$より、$f$の不連続点は高々可算個である。$\square$

定理 凸函数の微分可能でない点は高々可算個である。

(証明)$f$が$x$で微分可能でないとすると。左微分と右微分が異なるので$D_{-}f(x)\lt q\lt D_{+}f(x)$となる$q$が取れる。$x\lt y$について
$D_{-}f(x)\lt q\lt D_{+}f(x)\le D_{-}f(y)$
だから
$\lim_{z\nearrow x-0}D_{-}f(z)\le D_{-}f(x)\lt q\le \lim_{y\searrow x+0}D_{-}f(y)$
より$x$は$D_{-}f$の不連続点である。すなわち$f$の微分可能でない点は高々可算個である。$\square$

あとがき

色々なところのパッチワークで作ったので、全体的に纏まりが無いことを謝罪しておく。自分で埋めた証明もあるので、間違ってたらご指摘お願いします。また凸函数の微分可能でない点は高々可算個であっても、稠密には成り得ることを補足しておく。これは例えば$\vert x \vert$みたいな尖った函数をいい感じに足し合わせると作れる。

今回ためしにObsidian+TikZJaxという環境で執筆した。Obsidianはmarkdownエディタであり、標準で数式表現(mathjax?)をサポートしている。TikZJaxは本稿では使用していないが、可換図式を記述するtikz-cdなどのコードをWebAssemblyでコンパイル?してSVGで埋め込んでくれるアドオンである。よく分からないけどすごい技術だ。

参考

Stack Exchangeの投稿をいくつか参考にした