突然終わるかもしれないブログ

確率や統計の内容について記事を書く予定です.

再生核ヒルベルト空間(その2)

Reproducing Kernel Hilbert Spaces in Probability and Statistics

Reproducing Kernel Hilbert Spaces in Probability and Statistics

の勉強まとめ(4章)です.

この章の主な目的は(符号付)測度$\mu$を
\[
\mu\mapsto \int K(\cdot, x)\mathrm{d}\mu(x)\in\mathcal{H}_K,
\]
によって再生核ヒルベルト空間に埋め込むことです.

特に$\mu$が確率測度のとき,
\[
\int K(\cdot, x)\mathrm{d}\mu(x),
\]
はkernel meanとよばれ,統計・機械学習で応用があります*1*2

また$x_1,\cdots, x_n$を確率分布$P$からの独立な標本するとき経験分布
\[
\frac{1}{n}\sum_{i=1}^n\delta_{x_i},
\]
を再生核ヒルベルト空間に埋め込むことで,$\mathcal{H}_K$上の確率分布を誘導します.この経験分布は$\mathcal{H}_K$上のGaussian measureに弱収束することなどもわかります.収束レートなども調べることができます(Berry--Essen).


まずは測度をヒルベルト空間に埋め込むために,ヒルベルト空間値変数の積分の存在条件を考える必要があります.弱・強可積分性が存在します.

定義(Pettis integrability)
$X:(\Omega, \mathcal{F}, P)\to (\mathcal{H}, \mathcal{B}(\mathcal{H}))$を$\mathcal{H}$-値確率変数とする.$A\in\mathcal{A}$に対し
\[
\bigg|\int_A \langle X,f\rangle_{\mathcal{H}} \mathrm{d}P\bigg| < \infty,\quad \forall{f}\in\mathcal{H},
\]
が成立するとき,$X$は$A$上,weakly integrableという.$X$が$\Omega$上でweak integrableのとき,$X$をPettis integrableという.またこの時 $\exists{x}_A\in\mathcal{H}$で
\[
\int_A \langle X,f\rangle_{\mathcal{H}} \mathrm{d}P =\langle x_A, f\rangle,
\]
を満たすものが存在する*3.この$x_A$を$X$のPettis integralといい
\[
x_A\stackrel{\rm def}{=}\oint_A X\mathrm{d}P,
\]
と表記する.このとき
\[
\int_A \langle X, f\rangle \mathrm{d}P=\bigg\langle \oint_A X\mathrm{d}P, f\bigg\rangle
\]

定義(Bochner integrability)
$X:(\Omega, \mathcal{F}, P)\to (\mathcal{H}, \mathcal{B}(\mathcal{H}))$を$\mathcal{H}$-値確率変数とする.$A\in\mathcal{A}$に対し
\[
\int_A \|X\|_{\mathcal{H}} \mathrm{d}P< \infty,
\]
が成立するとき,$X$は$A$上,strongly integrableという.$X$が$\Omega$上strongly integrableであるとき$X$をBochner integrableという.


$X:(\Omega,\mathcal{F},P)\to (E,\mathcal{A})$を確率変数とし$\mu$を$E$上の$X$の分布とすると
\[
\int_E K(x,x)\mathrm{d}\mu(x)<\infty,
\]
であれば$\|K(\cdot, x)\|^2=K(x,x)$であり,$\|K(\cdot, x)\|\in L^2(\mu)\subset L^1(\mu)$なのでBochner integrable.よってkernel meanが存在する.

kernel meanの性質として任意の$f\in\mathcal{H}_K$に対し
\[
E[f(X)]=\int_E f(x)\mathrm{d}\mu(x)=\langle f, \mu_X\rangle\quad (\mu_X\stackrel{\rm def}{=}\int_E K(\cdot, x)\mathrm{d}\mu(x)),
\]
が成立します.定義から明らかですが,積分を和だと思えば内積積分が交換できるのは直感的納得がいきます.


またこの埋め込みにより,$E$上の符号付測度の空間に,特に$E$上の確率分布に内積が定義できます*4:
\[
\forall{\mu},\forall{\nu},\quad \langle\langle\mu,\nu\rangle\rangle\stackrel{\rm def}{=}\int_{E^2} K(x,y)\mathrm{d}(\mu\otimes\nu)(x,y).
\]
内積が定義できるので,位相が入るわけですが,面白いのはその位相が測度の弱収束位相と一致する場合があるということです.
たとえば,$E$がコンパクト距離空間で$K$が連続,かつ測度同士の内積が上のように定まるとき,一致します.

*1: T. Hofmann, B. Schölkopf, A. Smola. (2008). Kernel methods in machine learning. The Annals of Statistics, 36(3):1171–1220.

*2:Kernel embedding of distributions. In Wikipedia, http://en.wikipedia.org/wiki/Kernel_embedding_of_distributions

*3:実際 $T_X:\mathcal{H}\ni f\mapsto \langle X, f\rangle \in L^1(A, P)$は閉作要素であり,閉グラフ定理から連続である.何故ならば$f_n\to f$ in $\mathcal{H}$,$T_X(f_n)\to \exists{g}\in L^1(A, P)$とすると,$\{f_n\}$の部分列で$T_X(f_n)\to g$ a.e. となるものが取れる.$T_X(f_n)=\langle X, f_n\rangle \to \langle X, f\rangle~\forall{\omega}\in\Omega$であるから,$g=\langle X, f\rangle$ a.e. となる.従って$T_X(f_n)\to T_X(f)$ in $L^1(A, P)$である.$T_X$は閉作用素であり,閉グラフ定理から連続である. 以上より \[ E_X:\mathcal{H}\ni f\mapsto \int_A \langle X, f\rangle \mathrm{d}P \in\mathbf{R}, \] は連続かつ線形な写像である.リースの表現定理から$\exists{x}_A\in\mathcal{H}$で \[ \int_A \langle X,f\rangle_{\mathcal{H}} \mathrm{d}P =\langle x_A, f\rangle, \] を満たすものが存在する.

*4:内積となるためには埋め込みが単射になる必要があります.