補足説明確率・統計#

確率・統計に関連して本篇のなかで言及・引用した公式や定理について補足する記事です。

参考書籍#

大学の講義用コンテンツはネットからアクセスできるものを数多く見かけますが大抵、利用・活用の権限が不明なのが残念です。オンラインで容易に入手できる参考書籍・資料をあげておきます。

1. 神戸大学大学院　経営学研究科　分寺杏介さんのホームページ 以下サイトの資料のページからクリエイティブ・コモンズライセンスで公開されているコンテンツをダウンロードできます。初学者のためにわかりやすく伝えることを工夫されており良心的です。

https://www2.kobe-u.ac.jp/~bunji/

2. A First Course on Statistical Inference

クリエイティブ・コモンズライセンスで公開されています。またコンテンツが一か所にまとまっているので参照しやすいです。

@book{Molina2023, title = {A First Course on Statistical Inference}, author = {Molina Peralta, I. and Garc\'ia-Portugu\'es, E.}, year = {2023}, note = {Version 2.3.0. ISBN 978-84-09-29680-4}, url = {https://bookdown.org/egarpor/inference/} }

3. UTokyo Online Education 数理手法IV 2018 楠岡成雄 クリエイティブ・コモンズライセンスで公開されています。マルチンゲールに関する記述が非常に勉強になります。

https://elf-c.he.u-tokyo.ac.jp/courses/273/files/8152?module_item_id=4138

1. 重要な確率分布の公式#

確率変数の計算に関わる重要な関数をふたつ定義しておきます。

積率母関数

確率変数 X の確率密度関数 f から作られる以下の積分を積率母関数、あるいはモーメント母関数（Moment generating function）と呼びます。

確率変数Xが離散的な場合の定義。 $f$ を確率分布とすると、

$\begin{equation} \begin{aligned} M(t) := E[e^{tX}] = \sum_{x=0}^{n}e^{tx}f(x) \end{aligned} \end{equation}$

確率変数Xが連続的な場合の定義。 $f$ を確率密度関数とすると、

$\begin{equation} \begin{aligned} M(t) := E[e^{tX}] = \int_{-\infty}^{+\infty}e^{tx}f(x)dx \end{aligned} \end{equation}$

確率分布の一致

積率母関数については、確率変数X,Yの積率母関数 $M_X(t),M_X(t)$ が一致すればX,Yの確率分布 $P(a\le X \le b),P(a\le Y \le b)$ も一致する。

レヴィの連続性定理

$X_n,n=1,2,…$ を確率変数列とし、 $M_{X_n},n≥1$ 　をそれらの積率母関数とする。このとき全ての $s∈(−h,h) h>0$ 　において $n \rightarrow \infty$ で $M_{X_n}(s)$ がある関数 $M_X(s)$ に収束し、 $M_X(s)$ がs=0で連続であるならば $X_n$ はある確率変数 $X$ に分布収束する。つまりXの確率分布 $F_X(x)$ が存在して $\lim_{x \to \infty} F_{X_n}(x)=F_X(x)$ 。このとき $M_X(s)$ は連続関数であり X の積率母関数になっている。

この定理は中心極限定理を証明する際、収束を保証する根拠となる重要な定理です。詳しくは専門的な確率論の教科書を参照ください。

特性関数

確率変数 X の確率密度関数 f から作られる以下の積分を特性関数（Characteristic function）と呼びます。

$\begin{equation} \begin{aligned} M(t) := E[e^{itX}] = \int_{-\infty}^{+\infty}e^{itx}f(x)dx \end{aligned} \end{equation}$

特性関数に関しても積率母関数と同様に、確率分布の一致とレヴィの連続性定理が成り立ちます。

1.1. 二項分布#

一回の試行で出現する事象が、確率 p で値 +v が出現する事象 A およびに、確率 1-p で値 -v が出現する事象 B のいずれか二種類のみであるような確率的事象があったとします。これは一般にベルヌーイ試行と呼ばれます。この試行の確率変数を Z とすると、

$\begin{equation} \begin{aligned} E(Z) &= v \cdot p + (-v) \cdot (1 - p) \\ &= v(2p - 1) \\ V(Z) &= E(Z^2) - (E(Z))^2 \\ &= v^2 \cdot p + v^2 \cdot (1 - p) + (v(2p - 1))^2 \\ &= 4v^2p(1-p) \end{aligned} \end{equation}$

n 回の独立したベルヌーイ試行によって、A が出現する回数が k 回である確率変数を X とします。

$X = \sum_{i=1}^k Z_i$

このとき X の平均と分散は試行が独立しているので以下となります。

$\begin{equation} \begin{aligned} E(X) &= \sum_{i=1}^n E(Z_i) \\ &= nv(2p-1) \\ V(X) &= \sum_{i=1}^n V(Z_i) \\ &= n4v^2p(1-p) \end{aligned} \end{equation}$

EやVを含む一般的な次数のモーメントは積率母関数を使うことで効率的に計算することができます。 X がしたがう分布は以下の「二項分布（Binomial distribution）」で与えられますので、

$B(n,p) = \binom {n}{k}p^{k}(1-p)^{n-k}$

この場合の積率母関数M(t)は、

$\begin{equation} \begin{aligned} M_X(t) &= E[e^{tX}] \\ &=\sum_{k=0}^n\binom {n}{k} (pe^tv)^k ((1-p)e^{-tv})^{n-k} \end{aligned} \end{equation}$

ここで二項定理

(x+y)^n = \sum_{k=0}^n\binom {n}{k} x^k y^{n-k}

を使えば以下を得ます。

$\begin{equation} \begin{aligned} M_X(t) = (p e^{tv} + (1-p)e^{-tv})^n \end{aligned} \end{equation}$

$E[X],E[X^2],E[X^3]$ 等、 k 次のモーメントは積率母関数を t について k 回微分しゼロを代入することで得られます。積率母関数を使うと、例えば期待値（Xの１次のモーメント）は、関数の積に関する公式（ $(f(x)g(x))' =f'(x)g(x)+f(x)g'(x)$ ）及びに合成関数に関する公式（ $(f(g(x)))' =f'(g(x))g'(x)$ ）を思い出せば、以下のように機械的に計算できるので便利です。以下見易さのため v = 1 の場合を計算します。

$\begin{equation} \begin{aligned} M(t) &= A_t^n \;\; where A_t := p e^t + (1-p)e^{-t} \newline M'(t) &= nA^{n-1} A_t' = n(p e^t + (1-p)e^{-t})^{n-1} (p -(1-p)) \newline E[X] &= M'(0) = n(p - (1-p)) = n(2p-1) \newline M''(t) &= n(n-1)A^{n-2} A_t'A_t' + nA^{n-1} A_t'' \newline &= n(n-1)(p e^t + (1-p)e^{-t})^{n-2}(p e^t - (1-p)e^{-t})^2 \newline &+ n(p e^t + (1-p)e^{-t})^{n-1}(p e^t + (1-p)e^{-t}) \newline M''(0) &= n(n-1)(2p-1)^2 + n = n^2(2p-1)^2 -n (2p-1)^2 + n\newline V[X] &= M''(0) -M'(0)^2 = - n (2p-1)^2 + n = 4 n p (1-p) \end{aligned} \end{equation}$

1.2. 指数型分布族#

指数分布族は、確率密度関数または確率質量関数が次のような形で表される分布の集合を指します。

$f_Y(y \mid \theta) = h(y) \exp \left( \eta(\theta) \cdot T(y) - A(\theta) \right)$

ここで、
$y$ ：確率変数 Y の観測値
$\theta$ ：分布を特徴づけるパラメータであり、自然パラメータまたはカノニカルパラメータと呼ばれる
$h(y)$ ：データのみに依存する関数であり、基底測度（base measure）と呼ばれる
$\eta(\theta)$ ：自然パラメータまたはカノニカルパラメータ
$T(y)$ ：Yの既知の統計量であり、fの式形からT は $\theta$ の十分統計量になっている
$A(\theta)$ ：正規化関数（対数正規化項）と呼ばれ、分布を積分可能にするための項

この形は非常に一般的で、正規分布をはじめ、二項分布、ポアソン分布、ガンマ分布など広範な確率分布をこの形式により表現できます。式形については書き物によっていろいろな表記が見受けられます。例えば以下も同等の表記です。

$f_Y(y|\theta, \phi) = \exp\left( \frac{y \theta - b(\theta)}{\phi} + c(y, \phi) \right)$

ここで、

y

は確率変数

Y

の観測値

\theta

は分布の自然パラメータ

\phi

は分散パラメータ（dispersion parameter）

b(\theta)

は分布の平均に関連する既知の関数

c(y, \phi)

は観測データと分散パラメータに依存する関数であり、確率分布を正規化するための定数を含む。

前の表記から後の表記への変換は次のようになります。

自然パラメータ: $\eta(\theta) = \frac{\theta}{\phi}$

十分統計量: $T(y) = y$

正規化定数 $A(\theta) = \frac{b(\theta)}{\phi}$

基底測度 $h(y) = \exp(c(y, \phi))$

例

正規分布 $Y \sim N(\mu, \sigma^2)$ :
$f_Y(y|\mu, \sigma^2) = \frac{1}{\sqrt{2\pi\sigma^2}} \exp\left( -\frac{(y - \mu)^2}{2\sigma^2} \right)$

標準形では、

$f_Y(y|\theta, \phi) = \exp\left( \frac{y\theta - \frac{\theta^2}{2}}{\phi} - \frac{y^2}{2\phi} \right)$

ここで $\theta = \mu$ 、 $\phi = \sigma^2$ です。

ベルヌーイ分布 $Y \sim \text{Bernoulli}(p)$ :

$f_Y(y|p) = p^y (1-p)^{1-y}, \quad y \in \{0, 1\}$

標準形では、

$f_Y(y|\theta) = \exp\left( y \log\left(\frac{p}{1-p}\right) - \log(1-p) \right)$

ここで

\theta = \log\left(\frac{p}{1-p}\right)

（ロジットまたは対数オッズ）。

ポアソン分布 $Y \sim \text{Poisson}(\lambda)$ :

$f_Y(y|\lambda) = \frac{\lambda^y e^{-\lambda}}{y!}$

標準形では、

$f_Y(y|\theta) = \exp\left( y \theta - e^\theta - \log(y!) \right)$

ここで $\theta = \log(\lambda)$ です。

指数型分布族の特徴

指数型分布族にはいくつかの興味深い特徴があり、特に統計モデルや機械学習において有用です。

(1) 十分統計量の存在

例えば、正規分布の場合、十分統計量は観測データの平均と分散に関連します。十分統計量が存在するため、最大尤度推定やベイズ推定を効率的に行うことができます。

(2) 一般化線形モデル（GLM）の基盤

指数分布族は、一般化線形モデル（Generalized Linear Model; GLM）の理論的基盤となっています。GLMは、線形回帰、ロジスティック回帰、ポアソン回帰など、多くのモデルを統一的に扱える枠組みです。

GLMでは、目的変数が指数分布族に従うことを前提にし、リンク関数を用いて説明変数と応答変数を関連付けます。これにより、非線形な関係を扱うことができます。

(3) モーメント母関数と対数正規化項

モーメント母関数は以下のように表現できます。

$M_Y(t) = E[e^{tY}] = \int e^{ty} f_Y(y|\theta, \phi) \, dy$

定義式を代入して整理すると、

$\begin{equation} \begin{aligned} M_Y(t) &= \int e^{ty} \exp\left( \frac{y \theta - b(\theta)}{\phi} + c(y, \phi) \right) \, dy \\ &= \int \exp\left( \left(t + \frac{\theta}{\phi}\right)y - \frac{b(\theta)}{\phi} + c(y, \phi) \right) \, dy\\ &= \exp\left( \frac{b(\theta + t) - b(\theta)}{\phi} \right) \int \exp\left( \frac{\left(\theta + t\phi \right)y - b(\theta + t \phi)}{\phi} + c(y, \phi) \right) \, dy \end{aligned} \end{equation}$

右辺の積分は確率分布関数の積分で、1 になるから、以下の簡明な式に帰着します。

$M_Y(t) = \exp\left( \frac{b(\theta + t) - b(\theta)}{\phi} \right)$

期待値と分散はモーメント母関数のそれぞれ1次微分、2次微分から得られます。

$\begin{equation} \begin{aligned} E[Y] &= M_Y'(0) \\ \text{Var}(Y) &= M_Y''(0) - \left( M_Y'(0) \right)^2 \end{aligned} \end{equation}$

期待値については、

$\begin{equation} \begin{aligned} M_Y'(t) &= \frac{d}{dt} \left( \exp\left( \frac{b(\theta + t) - b(\theta)}{\phi} \right) \right)\\ &= M_Y(t) \cdot \frac{1}{\phi} \cdot b'(\theta + t) \end{aligned} \end{equation}$

これを

t = 0

のときに評価すると、次のようになります。

$\begin{equation} \begin{aligned} E[Y] = M_Y'(0) = \frac{1}{\phi} \cdot b'(\theta) \end{aligned} \end{equation}$

次に分散については、

$M_Y''(t) = \frac{d}{dt} \left( M_Y'(t) \right) = \frac{d}{dt} \left( M_Y(t) \cdot \frac{1}{\phi} \cdot b'(\theta + t) \right)$

式を展開します。

$M_Y''(t) = M_Y'(t) \cdot \frac{1}{\phi} \cdot b'(\theta + t) + M_Y(t) \cdot \frac{1}{\phi} \cdot b''(\theta + t)$

これを $t = 0$ のときに評価すると、次のようになります。

$M_Y''(0) = \frac{1}{\phi^2} \cdot \left( b'(\theta) \right)^2 + \frac{1}{\phi} \cdot b''(\theta)$

したがって、分散 $\text{Var}(Y)$ は、

$\begin{equation} \begin{aligned} \text{Var}(Y) = \frac{1}{\phi} \cdot b''(\theta) \end{aligned} \end{equation}$

(4) 共役事前分布の存在

指数分布族は、2章2節3項で言及した共役事前分布を持つという特徴をもつことを証明することができます。すなわち、指数型分布族に属する確率分布は尤度関数と事前分布が同じ関数形になるのです。この事実によりベイズ推定が容易をおこなうことができます。例えば、ポアソン分布の共役事前分布はガンマ分布であり、これにより、ベイズ更新が解析的に計算可能です。これを確かめてみましょう。

ベイズ推定において、ある尤度関数に対して事前分布を選んだとき、事後分布が同じ分布の形を持つ場合、その事前分布を共役事前分布（Conjugate　Prior）と呼びます。この性質により、ベイズ推定の計算が簡略化され、解析的な形で事後分布を求められるため、共役事前分布は非常に有用です。

確率変数 Y の分布が指数分布族に属する場合、その自然パラメータ $\theta$ に対して、共役事前分布は同じく指数分布族の形式を持つことを確かめることができます。

パラメータ $\theta$ に対する事前分布が指数型分布族に属していると仮定し、事前分布 $p(\theta)$ を次のように表します。

$\begin{equation} \begin{aligned} p(\theta|\alpha, \beta) = g(\alpha, \beta) \exp\left( \eta(\theta) \cdot \alpha - \beta \cdot A(\theta) \right) \end{aligned} \end{equation}$

ここで、 - $\alpha$ と $\beta$ は事前分布のハイパーパラメータ - $g(\alpha, \beta)$ は正規化定数

観測データ $y$ に基づく尤度関数 $L(\theta|y)$ は、観測データ $y$ を固定し、パラメータ $\theta$ を変数とみなした確率密度関数ですから、指数型分布族に属する尤度関数は次の形を取ります。

$L(\theta|y) = f_Y(y|\theta) = h(y) \exp\left( \eta(\theta) \cdot T(y) - A(\theta) \right)$

事後分布 $p(\theta|y)$ は、ベイズの定理を使って次のように計算されます。

$p(\theta|y) = \frac{L(\theta|y) \cdot p(\theta)}{\int L(\theta|y) \cdot p(\theta) d\theta}$

この式の分子部分に注目して、事後分布の形を簡略化します。

分子は尤度関数 $L(\theta|y)$ と事前分布 $p(\theta)$ の積です。これを計算すると、

$L(\theta|y) \cdot p(\theta) = \left[ h(y) \exp\left( \eta(\theta) \cdot T(y) - A(\theta) \right) \right] \cdot \left[ g(\alpha, \beta) \exp\left( \eta(\theta) \cdot \alpha - \beta A(\theta) \right) \right]$

この積を整理します。

$L(\theta|y) \cdot p(\theta) = h(y) g(\alpha, \beta) \exp\left( \eta(\theta) \cdot (T(y) + \alpha) - (\beta + 1) A(\theta) \right)$

この結果は再び指数型分布族の形状を持っています。つまり、次のように書き換えられます。

$p(\theta|y) \propto \exp\left( \eta(\theta) \cdot (T(y) + \alpha) - (\beta + 1) A(\theta) \right)$

ここで、事前分布と同じ形式が維持されていることがわかります。つまり、事後分布も指数型分布族の形を持つため、事前分布と共役であることが示されました。

事後分布のハイパーパラメータは次のように更新されます。

十分統計量に関連する項： $\alpha' = \alpha + T(y)$
正規化項に関連する項： $\beta' = \beta + 1$

2. 大数の法則と中心極限定理#

2.1. チェビシェフの不等式#

Xを確率分布Pに従う確率変数とし、その平均値をμ、分散をσ2 とする. 任意の k<0 に対して、

$\begin{equation} \begin{aligned} P(\vert X − \mu \vert \ge k) \le \frac{\sigma^2}{k^2} \end{aligned} \end{equation}$

が成り立つ。

[証明]
事象 $A = \lbrace \hspace{0.2em} \vert X - \mu \vert \ge k \hspace{0.2em} \rbrace$ に対して以下の関数（指示関数などと呼ばれる）を定義します。

$\begin{equation} \begin{aligned} 1_A(X) = \begin{cases} 1 & ( X \in A) \newline 0 & ( X \notin A) \end{cases} \end{aligned} \end{equation}$

このとき

$\begin{equation} \begin{aligned} k^2 1_A & \hspace{0.2em}\le\hspace{0.2em} \vert X- \mu \vert ^2 1_A \newline & \hspace{0.2em}\le\hspace{0.2em} \vert X- \mu \vert ^2 \newline \end{aligned} \end{equation}$

両辺の期待値をとると

$\begin{equation} \begin{aligned} E(k^2 1_A) & \hspace{0.2em}\le\hspace{0.2em} E(\vert X- \mu \vert ^2) \newline \end{aligned} \end{equation}$

左辺の期待値は事象Aの確率と等しい、また右辺は分散

\sigma^2

なので

$\begin{equation} \begin{aligned} k^2P(\vert X − \mu \vert \ge k)& \hspace{0.2em}\le\hspace{0.2em} \sigma^2 \end{aligned} \end{equation}$

最後に両辺を

k^2

で割って求める不等式を得る。

上記では使っていませんがチェビシェフの不等式の別証明方法でよく使われる以下の公式も追記しておきます。

2.2. マルコフの不等式#

Xを確率分布Pに従う非負確率変数とする。このとき、任意の a>0に対して、

$\begin{equation} \begin{aligned} P(X \ge a) \le \frac{1}{a}E (X) \end{aligned} \end{equation}$

が成り立つ.

2.3. 大数の弱法則#

標本 $\{ X_1,X_2,..,X_n \}$ の各要素は平均 $\mu$ ,分散 $\sigma^2$ の確率分布Pに従う独立確率変数とする。標本平均 $\bar{X}=(X_1+...+X_n)/n$ 。このとき $\bar{X}$ は $\mu$ へ確率収束する。すなわち、

$\begin{equation} \begin{aligned} \lim_{n \to \infty} P(∣\overline{X}-\mu∣ < \epsilon) = 1 \quad \epsilon\ は正の任意の数 \end{aligned} \end{equation}$

[証明]
標本平均

\bar{X_n}

に対してチェビシェフの不等式を適用します。

この事実を大数の法則（Law of Large Number,LLN）とよぶ。

2.4 中心極限定理#

中心極限定理 (Cntral limit theorem,CLT) は、個々の確率変数の分布に関係なく、多数の独立した同一分布の確率変数の算術平均の確率分布が正規分布へ収束することを示すものです。証明のあらすじを説明します。

平均 $\mu$ と分散 $\sigma^2$ をもつ $n$ 個の独立した同一分布の確率変数 $X_1, X_2, ..., X_n$ があるとします。

まず $\{X_i\}$ から、平均が 0 で分散が１になるようにスケールを変えた確率変数列 $\{Y_i\}$ をつくります。

$Y_i = \frac{X_i - \mu}{\sigma} \qquad i=1,..,n \newline$

これによりＸの標準化された算術平均ＺはＹによって以下のように書き直せます。

$Z_n = \frac{X_1 + X_2 + ... + X_n - n\mu}{\sqrt{n}\sigma} = \frac{Y_1 + X_2 + ... + Y_n}{\sqrt{n}}$

特性関数の形から、 $Z_n$ の特性関数は、個々の確率変数の特性関数の積によって表すことができます。

$\phi_{Z_n}(t) = \phi_{Y_1}(t)\phi_{Y_2}(t)...\phi_{Y_n}(t)$

ここで

\phi_{Y_i}(t)

は

Y_i

の特性関数です。

テイラー級数を使用して、 $t = 0$ の周りの各 $Y_i$ の特性関数を展開します。

$\phi_{X_i}(t) = 1 - \frac{1}{2}t^2 + o(t^2)$

ここで、

o(t^2)

は

t^2

よりも高次の項を表します。

特性関数の積にテイラー級数展開を代入します。 $n$ が大きくなると、 $t^2$ 以上の次数を含む項は無視できるので、極限を $n \rightarrow \infty$ とすると、 $Z_n$ の特性関数は標準正規分布の特性関数 ( $\phi_{\text{N}(0,1)}(t) = e^{-\frac{1}{2}t^2}$ ) に収束します。レヴィの連続性定理によれば、この特性関数の収束は確率分布の収束を意味します。したがって、 $Z_n$ の確率分布は標準正規分布へ分布収束します。

$Z_n = \frac{X_1 + X_2 + ... + X_n - n\mu}{\sqrt{n}\sigma} \xrightarrow{d} \text{N}(0,1)$

したがって、ｎが十分大きいとき

$S := X_1 + X_2 + ... + X_n \sim \text{N}(n\mu,n\sigma^2) \newline \bar{X} := \frac{X_1 + X_2 + ... + X_n}{n} \sim \text{N}(\mu,\sigma^2/n)$

3. 統計的推論の重要な性質#

3.1. 標本平均の不偏性#

標本平均が母平均に対する最小分散不偏推定量（MVUE: Minimum Variance Unbiased Estimator）であることは、一般に次のように証明されます。ここでは、有限個の独立同分布（i.i.d.）標本を用いた場合の証明を示します。

母集団の平均（母平均）を $\mu$ とします。
母分散を $\sigma^2$ とします。
標本 $X = (X_1, X_2, \ldots, X_n)$ は母平均 $\mu$ および母分散 $\sigma^2$ を持つ独立同分布の確率変数とします。

不偏性の証明

まず、標本平均が不偏推定量であることを証明します。不偏推定量であるためには、次の条件を満たす必要があります。

$E[\bar{X}] = \mu$

独立同分布の性質から、各 $X_i$ の期待値は $\mu$ です。従って、

$E[\bar{X}] = E\left[\frac{1}{n} \sum_{i=1}^n X_i\right] = \frac{1}{n} \sum_{i=1}^n E[X_i] = \frac{1}{n} \sum_{i=1}^n \mu = \frac{1}{n} \cdot n \cdot \mu = \mu$

したがって、標本平均 $\bar{X}$ は母平均 $\mu$ の不偏推定量です。次に、標本平均が母平均の最小分散不偏推定量であることを示します。標本平均の分散を求めます。

$\text{Var}(\bar{X}) = \text{Var}\left(\frac{1}{n} \sum_{i=1}^n X_i\right)$

独立同分布の性質から、分散の線形性を用いて、

$\begin{equation} \begin{aligned} \text{Var}(\bar{X}) &= \frac{1}{n^2} \sum_{i=1}^n \text{Var}(X_i) \\ &= \frac{1}{n^2} \sum_{i=1}^n \sigma^2 \\ &= \frac{1}{n^2} \cdot n \cdot \sigma^2 \\ &= \frac{\sigma^2}{n} \end{aligned} \end{equation}$

3.2. 標本分散の不偏性#

母数zに対してどの標本についてもその推定量 $\hat{Z}$ が $z = E(\hat{Z})$ となるとき $\hat{Z}$ は母数zの不偏推定量（Unbiased estimator）であるといいます。

標本 $\{ X_1,X_2,..,X_n \}$ の各要素は平均 $\mu$ ,分散 $\sigma ^ 2$ の母集団分布Pに従う独立確率変数とします。また標本平均を $\bar{X}=(X _ 1 +...+ X _ n)/n$ とします。そして以下二種類の標本分散を定義します。

$\begin{equation} \begin{aligned} S ^ 2 &:= \frac{1}{n} \sum _ {i=1} ^ n (X _ i - \bar{X}) ^ 2 \newline S'^ 2 &:= \frac{1}{n-1} \sum _ {i=1} ^ n(X_i - \bar{X}) ^ 2 \end{aligned} \end{equation}$

このとき

$\begin{equation} \begin{aligned} E(S^2) &= E(\frac{1}{n}\sum_{i=1}^n(X_i-\bar{X})^2) \newline &= E(\frac{1}{n}\sum_{i=1}^n((X_i - \mu) + (\mu - \bar{X}))^2) \newline &= E(\frac{1}{n}\sum_{i=1}^n((X_i - \mu)^2 -2(X_i - \mu)(\bar{X} - \mu) + (\mu - \bar{X})^2)) \newline &= \frac{1}{n}E(\sum_{i=1}^n(X_i - \mu)^2 -\frac{2}{n}E(\sum_i^n(X_i - \mu)(\bar{X} - \mu)) + \frac{1}{n}E((\mu - \bar{X})^2) \newline &= \frac{1}{n}\sum_{i=1}^nE((X_i - \mu)^2) -\frac{2}{n}E(\sum_i^n(X_i - \mu)\frac{1}{n}\sum_j^n(X_j - \mu)) + \frac{1}{n}\frac{1}{n}\sum_i^nE((X_i - \mu)^2) \newline &= \frac{1}{n}\sum_{i=1}^n\sigma^2 -\frac{2}{n^2}\sum_i^nE((X_i - \mu)^2) + \frac{1}{n^2}\sum_i^nE((X_i - \mu)^2) \newline &= \sigma^2 - \frac{2}{n^2}n\sigma^2 + \frac{1}{n^2}n\sigma^2 \newline &= \frac{n-1}{n}\sigma^2 \end{aligned} \end{equation}$

$S^2$ は不偏性をもつ推定量（Unbiased estimator）ではありませんでした。一方 $S'^2$ については上記の計算より不偏性を持つ推定量でです。 $S'^{2}$ を不偏標本分散と呼びます。

$\begin{equation} \begin{aligned} E(S'^{2}) &= \frac{n}{n-1}E(S^2) \newline &= \sigma^2 \end{aligned} \end{equation}$

3.3. 不偏標本分散は一致推定量である#

標本 $X = \{ X_1,X_2,..,X_n \}$ の各要素は平均 $\mu$ ,分散 $\sigma^2$ の正規分布 $N(\mu,\sigma^2)$ に従う独立確率変数とします。このとき標本分散を母分散で割ったものは自由度n-1のカイ二乗分布に従うことを証明できます。

$\begin{equation} \begin{aligned} \frac{\sum(X_i − \bar{X})^2}{σ^2} \text{∼} χ_{n-1}^2 \end{aligned} \end{equation}$

不偏標本分散

S'^2

を用いて言い換えると、

$\begin{equation} \begin{aligned} \frac{(n-1)S'^2}{\sigma^2} \text{∼} χ_{n-1}^2 \end{aligned} \end{equation}$

これは良く知られている事実のようです。StackExchange、Peralta本を見て確認しました。

$V(χ_{n-1}^2) = 2(n-1),E(S'^2) = \sigma^2$ に留意してチェビシェフの不等式に不偏標準分散を適用します。

$\begin{equation} \begin{aligned} P(\vert S'^2−σ^2 \vert \ge \epsilon) & = P( \vert S'^2−E(S'^2) \vert \ge \epsilon) \newline & \le V(S'^2) / \epsilon^2 \newline & = (\frac{\sigma^2}{n-1})^2V(\frac{(n-1)S'^2}{\sigma^2})/\epsilon^2 \newline & = (\frac{\sigma^2}{n-1})^2 V(\chi_{n-1}^2) / \epsilon^2\newline & = \frac{σ^4}{(n−1)^2}⋅2⋅(n-1) \newline & = \frac{2σ^4}{n−1} \rightarrow 0 \quad (as \quad n \rightarrow \infty) \newline \end{aligned} \end{equation}$

従って不偏標本分散は母分散へ確率収束するので一致推定量です。

3.4. 標本分散は一致推定量である#

この事実については「標本分散、不偏分散が推定量であること　新潟工科大学　竹野」を参照しました。

標本 $X = \{ X_1,X_2,..,X_n \}$ の各要素は平均 $\mu$ ,分散 $\sigma^2$ の確率分布Pに従う独立確率変数とします。標本分散 $S^2$ は以下の定義でした。

$\begin{equation} \begin{aligned} S^2 = \frac{1}{n}\sum_{i=1}^n(X_i-\bar{X})^2 \end{aligned} \end{equation}$

このとき $S^2$ は $\sigma^2$ へ確率収束する。すなわち $S^2$ は $\sigma^2$ の一致推定量である。

$\begin{equation} \begin{aligned} \lim_{n \to \infty} P(∣S^2-\sigma^2∣ < \epsilon) = 1 \quad \epsilon\ は正の任意の数 \end{aligned} \end{equation}$

標本分散 $S^2$ と不偏標本分散 $S'^2$ の以下の関係から

$\begin{equation} \begin{aligned} \frac{(n-1)S'^2}{n} = S^2 \end{aligned} \end{equation}$

両辺の期待値をとると $S'^2$ の不偏分散性から

$\begin{equation} \begin{aligned} \frac{(n-1)\sigma^2}{n} = E(S^2) \end{aligned} \end{equation}$

上記をふまえて以下では確率事象A := { | $S^2 - \sigma^2| \ge k$ }が任意のkに対してP(A)→０（n→∞）を示したい。

$S^2$ に対するチェビシェフの不等式の左辺を上述の等号関係で置き換える。

$\begin{equation} \begin{aligned} P(\vert S^2−E(S^2) \vert \ge \epsilon) & = P(\vert S^2−\frac{n-1}{n}\sigma^2 \vert \ge \epsilon) \newline \end{aligned} \end{equation}$

$S^2 \in A$ であるならば、

$\begin{equation} \begin{aligned} \vert S^2−\frac{n-1}{n}\sigma^2 \vert &= \vert S^2 − \sigma^2 + \sigma^2 - \frac{n-1}{n}\sigma^2 \vert \newline &\ge \vert S^2 − \sigma^2 \vert - \vert \sigma^2 - \frac{n-1}{n}\sigma^2 \vert \newline &\ge k - \frac{\sigma^2}{n} \newline \end{aligned} \end{equation}$

したがって確率事象B := { $\vert S^2−\frac{n-1}{n}\sigma^2 \vert \ge k - \frac{\sigma^2}{n}$ }とすると、 $S^2 \in A \Rightarrow S^2 \in B$ なので $P(A) \le P(B)$ となり、 $S^2$ に対するチェビシェフの不等式から、

$\begin{equation} \begin{aligned} P( \vert S^2 - \sigma^2 \vert \ge k) \hspace{0.5em} & \le \hspace{0.5em} P(B) \newline & \le \frac{V(S^2)}{(k - \frac{\sigma^2}{n})^2} \newline & = \frac{1}{(k - \frac{\sigma^2}{n})^2}(\frac{n-1}{n})^2V(S'^2) \newline & = \frac{1}{(k - \frac{\sigma^2}{n})^2}(\frac{n-1}{n})^2 \frac{2(n-1)}{(n-1)^2/\sigma^4} \newline & = \frac{\sigma^4 \cdot 2(n-1)}{(k - \frac{\sigma^2}{n})^2 n^2} \rightarrow 0 \hspace{0.5em} (as \hspace{0.5em} n \rightarrow \infty)\newline \end{aligned} \end{equation}$

3.5. 標本共分散は不偏推定量である#

標本 $\lbrace (X_1,Y_1),(X_2,Y_2),..,(X_n,Y_n) \rbrace$ の各要素は平均 $\mu$ ,分散 $\sigma^2$ 、共分散 $\sigma_{XY}$ の母集団分布 P に従う独立確率変数とします。このとき標本共分散 $S'_{XY}$ を以下のように定義します。

$\begin{equation} \begin{aligned} S' _ {XY} = \frac{1}{n-1}\sum _ {i=1}^n(X _ i - \bar{X})(Y _ i - \bar{Y}) \end{aligned} \end{equation}$

このとき

$\begin{equation} \begin{aligned} (n−1)S' _ {xy} &:=\sum(X _ i − \bar{X})(Y _ i − \bar{Y}) \newline &=\sum((X _ i - \mu _ X)−(\bar{X} - \mu _ X))((Y _ i - \mu_Y)−(\bar{Y} - \mu_Y)) \newline &=\sum(X _ i - \mu _ X)(Y _ i - \mu _ Y) - \sum (X _ i - \mu _ X)(\bar{Y} - \mu _ Y) \newline &- \sum(\bar{X} - \mu _ X)(Y _ i - \mu _ Y) + \sum (\bar{X} - \mu _ X)(\bar{Y} - \mu _ Y) \newline (n−1)E(S' _ {xy}) &= \sum E((X _ i - \mu _ X)(Y _ i - \mu _ Y)) − E(\sum (X _ i - \mu _ X)(\bar{Y} - \mu _ Y)) \newline &- E(\sum(\bar{X} - \mu _ X)(Y _ i - \mu _ Y)) +E(\sum (\bar{X} - \mu _ X)(\bar{Y} - \mu _ Y)) \newline &=n \cdot \sigma _ {XY} - E(\sum (X _ i - \mu _ X)(\frac{(Y _ 1-\mu _ Y)+..+(Y _ n-\mu _ Y)}{n} )) \newline &-E(\sum(\frac{(X _ 1 - \mu _ X)+..+(X _ n - \mu _ Y)}{n})(Y _ i - \mu _ Y)) \newline &+ nE((\bar{X} - \mu _ X)(\bar{Y} - \mu _ Y)) \newline &= n \cdot \sigma _ {XY} -n \cdot \frac{1}{n}\sigma _ {XY} -n \cdot \frac{1}{n}\sigma _ {XY} + n \cdot \frac{n}{n^2}\sigma _ {XY} \newline &= \sigma _ {XY}(n - 1) \newline E(S' _ {xy}) &= \sigma _ {XY} \end{aligned} \end{equation}$

S'_{xy}

　は母共分散の不偏推定量であることがわかりました。これを不偏標本共分散とよびます。

3.6. 標本共分散、不偏標本共分散ともに一致推定量である#

標本 $\lbrace (X_1,Y_1),(X_2,Y_2),..,(X_n,Y_n) \rbrace$ の各要素は平均 $\mu$ 、分散 $\sigma^2$ 、共分散 $\sigma_{XY}$ の母集団分布Pに従う独立確率変数とします。このとき標本共分散 $S _ {XY}$ 、不偏標本共分散 $S' _ {XY}$ はともに母数 $\sigma _ {XY}$ の一致推定量となります。証明の流れはおなじなので標本共分散の場合を説明しましょう。

標本共分散 $S_{XY}$ の定義式を分解して式変形する。

$\begin{equation} \begin{aligned} S _ {XY} &= \frac{1}{n}\sum(X _ i - \bar{X})(Y _ i - \bar{Y}) \newline &= \frac{1}{n}\sum ((X _ i - \mu _ X ) - (\bar{X} - \mu _ X))((Y _ i - \mu _ Y ) - (\bar{Y} - \mu _ Y)) \newline &= \frac{1}{n}\sum ((X _ i -\mu _ X )-(\bar{X} - \mu _ X))((Y _ i -\mu _ Y )-(\bar{Y}- \mu _ Y)) \newline &= \frac{1}{n} (\sum(X _ i - \mu _ X )(Y _ i -\mu _ Y ) - \sum(X _ i -\mu _ X )(\bar{Y}- \mu _ Y) \newline &- \sum(\bar{X} - \mu _ X) (Y _ i - \mu _ Y ) + \sum(\bar{X} - \mu _ X)(\bar{Y} - \mu _ Y)) \newline &= \frac{1}{n}\sum(X _ i - \mu _ X )(Y _ i - \mu _ Y ) - \frac{1}{n}\sum(X _ i - \mu _ X )(\bar{Y}- \mu_Y) \newline &- \frac{1}{n}\sum(\bar{X} - \mu _ X) (Y _ i - \mu _ Y ) + \frac{1}{n}\sum(\bar{X} - \mu _ X)(\bar{Y}- \mu _ Y) \newline &= \frac{1}{n}\sum(X _ i - \mu _ X )(Y _ i - \mu _ Y ) - (\bar{X} - \mu _ X)(\bar{Y}- \mu _ Y) \end{aligned} \end{equation}$

ここで、 $n \rightarrow \infty \Rightarrow \bar{X} - \mu _ X \rightarrow 0,\bar{Y}- \mu _ Y \rightarrow 0$ であるから上記のさいごの式の2項目は０へ確率収束する。また１項目は大数の法則により母数 $\sigma _ {XY}$ へ確率収束する。従って $S _ {XY}$ は $\sigma _ {XY}$ へ確率収束する。

3.7. 十分統計量と因子分解定理#

まず第２章２節で言及しました十分統計量の定義を再掲しておきます。

標本 $X=(X_1, X_2, \ldots, X_n)$ が同時確率密度関数（離散値のときは同時確率質量関数） $f_X(x_1,..,x_n;\theta)$ によって定義される確率分布 $P _ \theta$ に従うとします。 $f_X(x_1,..,x_n;\theta)$ を以後簡単のため $f_X(x;\theta)$ と書くことがあります。

標本 X の統計量 $T=t(X)$ に関して、 $T$ の実現値 $t(x)$ のもとで $X$ が実現値 $x$ を得る条件付確率 $P _ \theta (X=x \mid t(X)=t(x))$ がパラメータ $\theta$ に依存しない時、そしてその時に限り、 $T$ はパラメータ $\theta$ の十分統計量（Sufficient Statistic）であるという。あるいは、 $T$ が $\theta$ のために十分であるという。

これを式で書くと、

$\begin{equation} \begin{aligned} & \text{十分統計量とは} \\ & \Longleftrightarrow P_ \theta (X=x\mid t(X)=t(x))=P(X=x\mid t(X)=t(x)) \\ & \Longleftrightarrow f_{X|T}(x|t(x);\theta) = f_{X|T}(x|t(x)) \end{aligned} \end{equation}$

Fisher-Neymanの因子分解定理

この定理は以下を主張するものです。

統計量 $T = t(X)$ が $\theta$ のために十分であるための必要十分条件は、同時確率密度（あるいは質量）関数 $f_X(x;\theta)$ が次の形式に因子分解できることである。

$f_X(x_1,..,x_n;\theta) = g(t(x); \theta) h(x)$

ここで、
$g(t(x); \theta)$ は $\theta$ と統計量 $t(X)$ に依存する関数。
$h(x)$ は $x$ のみに依存する関数。

以下に確率変数が離散値の場合の証明を示します。連続値の場合厳密な証明は確率測度に基づくため、専門的な教科書を参照ください。

必要性の証明

$T$ が $\theta$ のための十分統計量であるとする。 $f_{X|T}(x|t;\theta)$ を $h(x)$ とすれば十分性の定義からこれは $\theta$ に依存しない。そして $f _ T (t;\theta)$ を $g(t(X); \theta)$ とすれば、 $f _ {X,T} (x,t(x); \theta) = f _ {X} (x; \theta)$ であることに注意すると、条件付確率の定義から

$\begin{equation} \begin{aligned} f _ {X} (x; \theta) &= f _ {X,T} (x,t(x); \theta) \\ &= f _ {T} (t(x); \theta) \cdot f _ {X|T} (x|t(x); \theta) \\ &= f _ {T} (t(x); \theta) \cdot f _ {X|T} (x|t(x)) \\ \end{aligned} \end{equation}$

定理が定める因子分解の形を満たしていることがわかりました。

十分性の証明

同時確率関数 $f(x | \theta)$ は以下のように因子分解されているとする。

$f_X(x;\theta) = g(t(x) ;\theta) h(x)$

このとき $f_{X|T}(x|t;\theta)$ が $\theta$ 　に依存していないことを示す必要があります。

$f_{X|T}(x|t;\theta) = \frac{f_{X,T}(x,t(x);\theta)}{f _ {T} (t; \theta)}$

$f _ {X,T} (x,t; \theta) = f _ {X} (x; \theta)$ であることに注意すると、

$f_{X|T}(x|t;\theta) = \frac{g(t(x) ; \theta) h(x)}{f _ {T} (t; \theta)}$

周辺確率の定義により $f _ {T} (t; \theta) = \sum _ {y:t(y)=t} h(y) g(t(y) ; \theta)$

$\begin{equation} \begin{aligned} f_{X|T}(x|t;\theta) &= \frac{g(t(x) ; \theta) h(x)}{\sum _ {y:t(y)=t} h(y) g(t(y) ; \theta)} \\ &= \frac{g(t ; \theta) h(x)}{g(t ; \theta) \sum _ {y:t(y)=t} h(y) } \mathbf{1}_{t(x)=t}(x) \\ &= \frac{h(x)}{ \sum _ {y:t(y)=t} h(y) } \mathbf{1}_{t(x)=t}(x) \end{aligned} \end{equation}$

定理が定める条件付き確率がパラメータ $\theta$ に依存しないことが確かめられた。確率変数が連続値の場合、総和を積分に置き換えることで同じ結論を得ることができます。

3.8. 望ましい不偏推定量#

統計量 $t(X)$ がパラメータ $\theta$ に対して完備（Complete）であるとは、任意の可測関数 $g$ について、以下の条件を満たす場合を指します。

$E_\theta[g(t(X))] = 0 \quad \forall \theta \implies P(g(t(X)) = 0) = 1$

言い換えると、統計量 $t(X)$ の任意の関数 $g(t(X))$ が、全ての $\theta$ に対して期待値がゼロとなるならば、ほぼ確実に $g(t(X))$ 自体がゼロである場合、統計量 $t(X)$ は完備統計量（Complete Statistic）と呼ばれます。

完備統計量はベクトル空間における完全性を思わせる定義となっています。ベクトル空間 $V$ のベクトルの集まり $v_1,..,v_n$ が完全系であるとは、任意の $v \in V$ が完全系の線形結合 $v = \sum a_j v_j$ として記述できることをいいます。この定義から $v \in V$ がすべての $v_j$ に直交するならば、 $v = 0$ です。完備統計量の定義ではむしろ確率分布の族{P}を完備系と呼ぶほうが類推的な感じもしますが、

不偏推定量を評価する:#

正規分布において、標本平均 $\bar{X}$ と標本分散 $S^2 = \frac{1}{n-1} \sum_{i=1}^n (X_i - \bar{X})^2$ は $(\mu, \sigma^2)$ に対する十分統計量のベクトルですが、標本平均単独では完備統計量とは言えません。
$X \sim N(\mu, \sigma^2)$ において、標本平均 $\bar{X}$ と標本分散 $S^2$ の組 $(\bar{X}, S^2)$ は完備統計量です。

従って、標本平均 $\bar{X}$ の分散は $\frac{\sigma^2}{n}$ です。

ここで、Rao-Blackwell定理とLehmann-Scheffé定理を用いることで、標本平均が最小分散不偏推定量であることを確認します。

Rao-Blackwell定理: ある推定量 $T$ が不偏であるとき、その条件付き期待値 $E[T | S]$ は $S$ が十分統計量である場合、不偏かつ $T$ よりも分散が小さくなるか等しい。すなわち、

$\begin{equation} \begin{aligned} V[T] \le V[E[T | S]] \end{aligned} \end{equation}$

Lehmann-Scheffé定理: 十分かつ完備な統計量を用いたRao-Blackwell化された不偏推定量は、最小分散不偏推定量である。

標本平均 $\bar{X}$ は母平均 $\mu$ の推定において十分統計量です。正規分布の場合、 $\bar{X}$ は完備かつ十分統計量です。

以上の議論から、標本平均 $\bar{X}$ は母平均 $\mu$ の不偏推定量であり、その分散は $\frac{\sigma^2}{n}$ です。Rao-Blackwell定理およびLehmann-Scheffé定理により、標本平均 $\bar{X}$ は母平均 $\mu$ に対する最小分散不偏推定量であることが確認されます。

3.9. 最尤推定量が一致推定量となる条件#

3.10. 最尤推定量が漸近有効性を満たす条件#

4. 確率過程とマルチンゲール#

{ $\Omega,\mathscr{F},P$ } を第２章確率と統計的推論で説明した意味での確率空間であるとします。また、{ $\Omega,\mathscr{F},P$ }　の上で定義された実数値関数の集合 $\{ X_t\}_{0 \le t}$ を確率過程（Stochastic process）とよびます。

4.1. フィルトレーション#

$\{ \mathscr{F} \}$ 　の部分集合族 $\{ \mathscr{F_t} | 0 \le t \}$ 　が以下を満たすときフィルトレーション（Filtration）であるといい、 $\{ \Omega,\mathscr{F},P,\{ \mathscr{F_t} \}\}$ をフィルター付き確率空間と呼称します。

$\mathscr{F_t}$ は σ 加法族
$\mathscr{F_s} ⊂ \mathscr{F_t} ⊂ \mathscr{F} \;\; for \;\; 0 ≤ s < t$

$X_t$ が $\{ \mathscr{F_t} \}$ -可測であるとき　 $\{ X_t\}_{0 \le t}$ は $\{ \mathscr{F_t} \}$ -適合であるといいます。

フィルトレーションは、増大情報系と訳されます。確率過程を時刻 $t$ までに観察して得られた事象を蓄積して得られる情報の総体として理解することができます。例えば、株価を確率過程としてみたとき、時刻 𝑡 までに観測された市場のデータや過去の取引情報をイメージしてください。

いかさまの無い公平な賭けのように、現在までに観測により得られた情報は将来の値を予測することの役には立たない、ということを確率過程として表現した概念をマルチンゲールといいます。

4.2. マルチンゲール#

マルチンゲールの数学的定義は次のようになります。

確率過程 $\{ X_t \}$ がフィルトレーション $\{ \mathcal{F}_t \}$ に関してマルチンゲールであるとは、任意の時刻 $t$ において以下の条件が成り立つことを意味します。

可測性：確率変数 $X_t$ は $\mathcal{F}_t$ 可測です。つまり、各時点 $t$ において、 $X_t$ は時刻 $t$ までに観測された情報に基づいて計算されます。
条件付き期待値の性質：任意の $s \leq t$ に対して、条件付き期待値 $E[X_t | \mathcal{F}_s]$ が $\mathcal{F}_s$ 可測であり、かつ $X_s$ に等しいという条件を満たします。

数学的には、上記の条件は次のように表されます。

$\begin{equation} \begin{aligned} E[X_t | \mathcal{F}_s] = X_s \quad \text{a.s.} \end{aligned} \end{equation}$

ここで、"a.s." は「ほとんど至る所で（almost surely）」の略語です。確率過程を観測したとき上記の等式が確率１で成り立つことを意味します。

Ｘがサイコロ投げの試行であると考えれば、次の試行で得られるサイコロの目の期待値は今でた目とおなじ、ということになります。

数理ファイナンスの世界では、効率的な市場仮説に基づいた市場価格をマルチンゲールによってモデル化できるため非常に重要な概念となっています。

5. 線形回帰モデルの最良の推定方法#

ガウス-マルコフ定理は、線形回帰モデルにおける最小二乗推定法が、等分散な（ホモスケダスティックな）誤差項を持つ場合において、最良の線形不偏推定量を提供することを示しています。この定理は、線形回帰分析における理論的な基盤を提供し、最小二乗法の有用性を裏付ける重要な結果です。以下に、この定理の証明の基本的な流れをまとめておきます。

5.1. ガウス-マルコフの定理#

線形回帰モデル

$y = X b + \epsilon$

において、以下の仮定が成り立つとする。
1. 線形モデル: $y$ は回帰係数 $b$ と説明変数の行列 $X$ の線形結合として表現される。
2. 期待値ゼロの誤差項: 誤差項 $\epsilon$ は、期待値がゼロである。すなわち、 $E(\epsilon) = 0$ 。
3. 等分散性（ホモスケダスティシティ）: 誤差項の分散は定数であり、すべての観測値に対して等しい。すなわち、 $\text{Var}(\epsilon) = \sigma^2 I$ である。
4. 誤差項の自己無相関性: 誤差項は互いに相関していない。すなわち、共分散行列は $\text{Cov}(\epsilon_i, \epsilon_j) = 0$ （ $i \neq j$ ）。

この条件下で、最小二乗法による回帰係数 $\hat{b}_{ols}$ は最良線形不偏推定量（BLUE）である。すなわち、線形かつ不偏の推定量の中で、最小の分散を持つ。

証明の流れ

線形回帰モデルを次のように表します。

$y = X b + \epsilon$

ここで、

y \in \mathbb{R}^n

は観測値のn次元列ベクトル

X \in \mathbb{R}^{n \times p}

は説明変数の

n

×

p

行列

b \in \mathbb{R}^p

は未知の回帰係数のp次元列ベクトル

\epsilon \in \mathbb{R}^n

は誤差項のn次元列ベクトルであり、

E(\epsilon) = 0

および

\text{Var}(\epsilon) = \sigma^2 I

とであるする。

最小二乗法推定では、次のような残差の二乗和（RSS: Residual Sum of Squares）を最小化するパラメータを求めます。

$RSS(b) = (y - X b)^T (y - X b)$

これを $b$ に関して最小化することで、最小二乗推定量 $\hat{b}_{ols}$ が求められます。この導出は第3章1節2項の記述を参照ください。

$\hat{b}_{ols} = (X^T X)^{-1} X^T y$

まず、最小二乗推定量 $\hat{b}_{ols}$ が不偏推定量であることを示します。つまり、推定量の期待値が真の回帰係数 $b$ に一致することを確認します。

$E(\hat{b}_{ols}) = E((X^T X)^{-1} X^T y)$

ここで、 $y = X b + \epsilon$ を代入すると、

$E(\hat{b}_{ols}) = (X^T X)^{-1} X^T E(X b + \epsilon)$

となります。仮定より $E(\epsilon) = 0$ なので、

$E(\hat{b}_{ols}) = (X^T X)^{-1} X^T X b = b$

これにより、 $\hat{b}_{ols}$ は不偏であることが確認されました。

さらに、最小二乗推定量 $\hat{b}_{ols}$ がが最小の分散を持つことを確かめます。分散 $\text{Var}(\hat{b}_{ols})$ は次のように計算されます。

$\text{Var}(\hat{b}_{ols}) = \text{Var}((X^T X)^{-1} X^T y)$

再び、 $y = X b + \epsilon$ を代入します。

$\text{Var}(\hat{b}_{ols}) = (X^T X)^{-1} X^T \text{Var}(y) X (X^T X)^{-1}$

仮定により、 $\text{Var}(y) = \text{Var}(\epsilon) = \sigma^2 I$ なので、

$\text{Var}(\hat{b}_{ols}) = \sigma^2 (X^T X)^{-1}$

したがって、最小二乗推定量の分散は $\sigma^2 (X^T X)^{-1}$ です。

次に、yの任意の線形結合によってあらわされる不偏推定量 $\hat{b} = A y$ を考えます。ここで $A \in \mathbb{R}^{p \times n}$ は線形な行列です。 $\hat{b_{obs}}$ は $A$ が特に　 $(X^T X)^{-1} X^T$ で表される（＝残差 $\epsilon$ のノルムが最小になる）場合に相当します。 $\hat{b}$ の分散が $\text{Var}(\hat{b}_{ols})$ を下回ることが無いことを示します。不偏推定量の定義から、 $\hat{b}$ の期待値 $E$ は、次の等式を満たします。

$E(\hat{b}) = A X b = b$

これが成り立つためには、 $A X = I_p$ となることが必要であり、解 $A$ は一般に次の形に表現できます。これについては補足説明　ベクトル・行列のなかで説明していますので参照ください。

$A = (X^T X)^{-1} X^T + C (I_n - X (X^T X)^{-1} X^T)$

ここで、 $C$ は任意の $p \times n$ 行列です。推定量の分散 $\text{Var}(\hat{b})$ は次のように表されます。

$\text{Var}(\hat{b}) = A \text{Var}(y) A^T = A \sigma^2 I A^T = \sigma^2 A A^T$

最小二乗推定量 $\hat{b}_{ols}$ に対応する $A = (X^T X)^{-1} X^T$ を代入すると、

$\text{Var}(\hat{b}_{ols}) = \sigma^2 (X^T X)^{-1}$

一方、一般の線形不偏推定量 $\hat{b}$ に対する分散 $\text{Var}(\hat{b})$ は次のように表されます。

$\text{Var}(\hat{b}) = \sigma^2 ((X^T X)^{-1} + C C^T)$

したがって、 $\text{Var}(\hat{b}) \geq \text{Var}(\hat{b}_{ols})$ であり、最小二乗推定量が最小の分散を持つことがわかります。これにより、最小二乗推定量 $\hat{b}_{ols}$ が最良線形不偏推定量（BLUE）であることが証明されました。

6. マルコフ過程#

マルコフ過程とマルコフチェーンは、確率過程の理論において重要な概念です。以下では、それぞれの数学的定義とその関係について説明します。

6.1. マルコフ過程#

マルコフ過程は、マルコフ性を持つ連続時間の確率過程です。マルコフ性とは、未来の状態が現在の状態のみに依存し、過去の履歴には依存しない性質を指します。数学的には、マルコフ過程 $\{ X_t \}_{t \geq 0}$ が次の条件を満たすときに成り立ちます。

$\begin{equation} \begin{aligned} P(X_{t+\Delta t} \in A | X_t = x, X_{t-1} = x_{t-1}, \ldots, X_0 = x_0) = P(X_{t+\Delta t} \in A | X_t = x) \end{aligned} \end{equation}$

ここで、 $\Delta t$ は微小時間の増分を表し、 $A$ は状態空間内の集合です。つまり、ある時点 $t$ での状態 $X_t$ が与えられたとき、 $t + \Delta t$ での状態がその時点の状態 $X_t$ のみに依存するという条件です。

6.2. マルコフチェーン#

マルコフチェーンは、離散時間のマルコフ過程であり、状態空間が離散的な場合に適用されます。マルコフチェーンは、離散的な時間ステップ $t = 0, 1, 2, \ldots$ において、各時点での状態がマルコフ性を持つ確率過程です。

具体的には、離散時間のマルコフチェーン $\{ X_t \}_{t \geq 0}$ が次の条件を満たすときに成り立ちます。

$\begin{equation} \begin{aligned} P(X_{t+1} = j | X_t = i, X_{t-1} = i_{t-1}, \ldots, X_0 = i_0) = P(X_{t+1} = j | X_t = i) \end{aligned} \end{equation}$

ここで、 $i, j$ は状態空間内の状態を表します。

7. ガウス過程#

第４章で取り上げた状態空間モデルが前提としているガウス過程に関して、基本的な性質をまとめておきます。

ガウス過程 (Gaussian Process, GP) は、任意の有限次元で観測される値が多次元の正規分布に従うような確率過程です。ガウス過程は関数空間における確率モデルとして使われ、特に機械学習の文脈では回帰やベイズ的な推定に用いられます。ガウス過程の数理的定義と性質について、以下で詳しく説明します。

ガウス過程の定義#

ガウス過程は次のように定義されます。

任意の有限な数の点 $\{x_1, x_2, \dots, x_n\}$ における確率変数 $\{f(x_1), f(x_2), \dots, f(x_n)\}$ が多次元正規分布に従うような確率過程 $f(x)$ が次の性質を満たすときガウス過程であるという。

期待値ベクトルを $\mathbf{m} \in \mathbb{R}^n$ 、共分散行列を $\mathbf{K} \in \mathbb{R}^{n \times n}$ 、とするとき、任意の $n$ 個の点 $x_1, x_2, \dots, x_n$ に対して、ベクトル $\mathbf{f} = [f(x_1), f(x_2), \dots, f(x_n)]$ が、多次元正規分布 $\mathcal{N}(\mathbf{m}, \mathbf{K})$ に従う。

これを形式的に以下のように表現します。ガウス過程 $f(x)$ は次のように記述されます。

$f(x) \sim \mathcal{GP}(m(x), k(x, x'))$

$m(x)$ は平均関数と呼ばれ、 $x$ に依存するガウス過程の期待値を表します。

$m(x) = \mathbb{E}[f(x)]$

$m(x)$ はガウス過程の平均的な振る舞いを定義します。平均関数はゼロ関数 $m(x) = 0$ と仮定されることが一般的ですが、具体的な問題に応じて他の平均関数を設定することも可能です。

$k(x, x')$ は共分散関数（カーネル関数）と呼ばれ、任意の2つの点 $x$ と $x'$ における相関を記述します。

$k(x, x') = \mathbb{E}[(f(x) - m(x))(f(x') - m(x'))]$

$k(x, x')$ はガウス過程における2つの点間の相関を決定します。典型的なカーネル関数の例として、次のようなものがあります。　

RBF（Gaussian）カーネル

$k(x, x') = \sigma_f^2 \exp \left( -\frac{(x - x')^2}{2l^2} \right)$

ここで、 $\sigma_f$ は信号の強度、 $l$ は特徴のスケールを表します。

線形カーネル

$k(x, x') = x^T x'$

周期カーネル

$k(x, x') = \sigma_f^2 \exp \left( -2 \sin^2 \left( \frac{\pi |x - x'|}{p} \right) / l^2 \right)$

ここで、 $p$ は周期、 $l$ はスケールパラメータです。

このカーネル関数によって、ガウス過程の滑らかさや変動の仕方が制御されます。

ガウス過程の性質#

ガウス過程の性質を以下にまとめます。

任意の有限次元でガウス分布 ガウス過程は、どの有限次元でもガウス分布に従います。つまり、任意の $n$ 個の点 $\{x_1, x_2, \dots, x_n\}$ における値 $\{f(x_1), f(x_2), \dots, f(x_n)\}$ は多次元正規分布に従います。
無限次元の確率過程 ガウス過程は、有限次元だけでなく無限次元にわたる関数としての分布も定義されます。これは、ガウス過程が関数全体に対して分布を与える確率モデルであることを意味します。
ベイズ的な枠組み ガウス過程はベイズ推定に適しています。観測されたデータに基づいて、後続の観測点での予測分布をガウス過程を使って計算できます。観測データによって共分散構造が調整され、予測が更新されます。

ガウス過程による回帰#

ガウス過程は関数の回帰問題に広く使われます。データ $\{(x_i, y_i)\}_{i=1}^n$ を用いて、新しい点 $x^*$ に対する関数値 $f(x^*)$ を予測する場合の手順は次のようになります。

訓練データに基づく分布

観測データ $\mathbf{y} = [y_1, \dots, y_n]^T$ に基づき、ガウス過程は次のように表されます。

$\mathbf{y} \sim \mathcal{N}(m(\mathbf{x}), K(\mathbf{x}, \mathbf{x}) + \sigma^2 I)$

ここで、

K(\mathbf{x}, \mathbf{x})

はカーネル行列、

\sigma^2

はノイズの分散です。

予測分布: 新しい点 $x^*$ における予測分布は次のように計算されます。
$f(x^*) \sim \mathcal{N}(\mu^*, \sigma^{*2})$

平均 $\mu^*$ と分散 $\sigma^{*2}$ は次の式で与えられます。

$\mu^* = k(x^*, \mathbf{x})^T (K(\mathbf{x}, \mathbf{x}) + \sigma^2 I)^{-1} \mathbf{y}$

$\sigma^{*2} = k(x^*, x^*) - k(x^*, \mathbf{x})^T (K(\mathbf{x}, \mathbf{x}) + \sigma^2 I)^{-1} k(x^*, \mathbf{x})$

この予測分布を使うことで、データに基づいて新しい点での予測とその不確実性を求めることができます。

8. ランダムウォークからブラウン運動へ#

ブラウン運動 $W_t$ の定義

以下の性質を持つガウス過程 $W_t$ をブラウン運動と呼びます。　 1. $W_0 = 0$ （始点が 0 である）。 2. 任意の時間 $0 \leq s < t$ において、増分 $W_t - W_s$ は正規分布 $\mathcal{N}(0, t-s)$ に従う。 3. 非重複した増分は独立（独立増分性）。 4. $t \to \infty$ の極限で、 $W_t$ は連続パスを持つ。

8.1. AR(1)からOrnstein-Uhlenbeck過程を導く#

自己回帰モデル AR(1) を定義します。

$X_{t+1} = \mu + \phi X_t + \epsilon_t$

ここで、
$X_t$ : 時刻 $t$ の状態変数
$\phi$ : 自己回帰係数
$\epsilon_t$ : 独立同分布のランダム項（平均 0、分散 $\sigma_\epsilon^2$ ）

離散的な時間 $t$ を連続時間化するために、 $t$ の時間ステップ $\Delta t$ による分割数 $n$ を導入します。

$t = n \Delta t`$

時間ステップが微小化するにつれて $X_t$ が連続的に変化するようになるために、自己回帰係数 $\phi$ は 1 へ、 $\mu$ は 0 へ近づく必要があります。そこで以下のように新しいパラメータ $\theta$ 、 $\mu_{ou}$ を用いて書き換えます。

$\begin{aligned} \phi &= e^{- \theta \Delta t}, \quad \text{where} \, \theta > 0 \\ \mu &= \mu_{ou} (1 - \phi) \end{aligned}$

ランダム項の分散は、時間ステップが小さくなるにつれ比例して分散も小さくなるようにスケール変換する必要があります。標準正規分布に従うランダム項 $\eta_t$ として、

$\epsilon_t = \sqrt{\Delta t} \sigma_{ou} \eta_t, \quad \eta_t \sim \mathcal{N}(0, 1)$

上記を用いて、AR(1)モデルを微小時間化したときの形式へと書き直します。

$X_{t+\Delta t} = e^{- \theta \Delta t} X_t + \mu_{ou} (1 - \phi) + \sqrt{\Delta t} \sigma_{ou} \eta_t$

$X_{t+\Delta t} - X_t = (e^{- \theta \Delta t} -1 ) X_t + \mu_{ou} (1 - e^{- \theta \Delta t}) + \sigma_{ou} \eta_t \sqrt{\Delta t}$

$\Delta t$ が小さい場合、テイラー展開を用いて $(e^{-\theta \Delta t} - 1)$ を近似します

$e^{-\theta \Delta t} - 1 \approx -\theta \Delta t$

$(1 - e^{-\theta \Delta t})$ についても同様に

$1 - e^{-\theta \Delta t} \approx \theta \Delta t$

これを代入すると

$X_{t+\Delta t} - X_t \approx -\theta X_t \Delta t + \theta \mu_{ou} \Delta t + \sigma_{ou} \eta_t \sqrt{\Delta t}$

ノイズ項に関しては、以下の事実を用います。

$\eta_t \sim \mathcal{N}(0, 1)$ は独立同分布であり、 $\sqrt{\Delta t}$ によってスケールされたノイズ項は $\Delta t \to 0$ の極限で、ブラウン運動 $W_t$ の微分に収束します。

$\eta_t \sqrt{\Delta t} \to dW_t, \quad W_t \text{は標準ブラウン運動}$

ブラウン運動の定義を満たすことを確認すれば、 $Z_t = \eta_t \sqrt{\Delta t}$ が標準ブラウン運動 $W_t$ に収束することを証明できます。

<増分の分布が正規分布に収束すること>

各増分 $Z_t = \eta_t \sqrt{\Delta t}$ の分布は、分散 $\Delta t$ の正規分布です。
$Z_t \sim \mathcal{N}(0, \Delta t)$
$t = n \Delta t$ の時間までの累積和として $W_t$ を定義します。
$W_t = \sum_{i=1}^n Z_i = \sum_{i=1}^n \eta_i \sqrt{\Delta t}$
ここで $n = t / \Delta t$ 。

$\Delta t \to 0$ の極限で、この和が分散 $t$ の正規分布に従うことは、汎関数に対する中心極限定理（Donskerの不変原理）として知られているます。独立な正規分布の和は再び正規分布になるため、 $W_t \sim \mathcal{N}(0, t)$ が成立します。

<独立増分性>

各ステップでの $\eta_t$ は独立同分布であるため、任意の時点 $t_1, t_2, \dots$ の増分 $W_{t_{i+1}} - W_{t_i}$ は互いに独立です。
よって、非重複した時間区間に対応する増分は独立になります。

<連続性の確認>

積分和として定義された $W_t = \sum_{i=1}^n \eta_i \sqrt{\Delta t}$ は、 $\Delta t \to 0$ の極限で連続な軌道に近づきます。これは次の理由によります。

各増分 $\eta_t \sqrt{\Delta t}$ の変動幅が時間スケールに応じて小さくなるため、大きなジャンプが生じなくなります。
よって、極限 $t \to \infty$ で連続パスが得られることが保証されます。

<スケーリングの正当性>

ブラウン運動は次のスケーリング特性を満たします。

$W_{ct} \sim \sqrt{c} W_t \quad (\text{for any }c > 0)$

$\eta_t \sqrt{\Delta t}$ を用いた定義では、このスケーリング特性が自然に組み込まれています。

例えば、 $t = n \Delta t$ として、

$\text{Variancec} = n \cdot \text{Var}(\eta_t \sqrt{\Delta t}) = n \cdot \Delta t = t$

となり、正しいスケーリングが確認できます。

したがって、 $\Delta t \to 0$ の極限で次式に収束します。

$dX_t = -\theta (X_t -\mu_{ou})dt + \sigma_{ou} dW_t$

OU過程には以下の性質があります。

平均回帰性：ドリフト項 $-\theta X_t dt$ により、状態変数 $X_t$ は長期的に平均値（ここでは 0）に戻ろうとします。
ランダム性：ノイズ項 $\sigma_{ou} dW_t$ によるランダムな揺らぎを含みます。
定常性：定常分布は正規分布で、平均 0、分散 $\sigma_{ou}^2 / (2\theta)$ に従います。

8.2. OU 過程の MFPT 方程式#

（準備中）

補足説明 確率・統計#

参考書籍#

1. 重要な確率分布の公式#

1.1. 二項分布#

1.2. 指数型分布族#

2. 大数の法則と中心極限定理#

2.1. チェビシェフの不等式#

2.2. マルコフの不等式#

2.3. 大数の弱法則#

2.4 中心極限定理#

3. 統計的推論の重要な性質#

3.1. 標本平均の不偏性#

3.2. 標本分散の不偏性#

3.3. 不偏標本分散は一致推定量である#

3.4. 標本分散は一致推定量である#

3.5. 標本共分散は不偏推定量である#

3.6. 標本共分散、不偏標本共分散ともに一致推定量である#

3.7. 十分統計量と因子分解定理#

3.8. 望ましい不偏推定量#

不偏推定量を評価する:#

3.9. 最尤推定量が一致推定量となる条件#

3.10. 最尤推定量が漸近有効性を満たす条件#

4. 確率過程とマルチンゲール#

4.1. フィルトレーション#

4.2. マルチンゲール#

5. 線形回帰モデルの最良の推定方法#

5.1. ガウス-マルコフの定理#

6. マルコフ過程#

6.1. マルコフ過程#

6.2. マルコフチェーン#

7. ガウス過程#

ガウス過程の定義#

ガウス過程の性質#

ガウス過程による回帰#

8. ランダムウォークからブラウン運動へ#

8.1. AR(1)からOrnstein-Uhlenbeck過程を導く#

8.2. OU 過程の MFPT 方程式#

補足説明確率・統計#