ページ

2013年5月1日水曜日

多項分布から多変量正規分布への近似について(6)

問題

\(k\)項分布は、サンプルサイズが大きいときに\(k-1\)次元正規分布に近似できる。

考えたこと

\(k = 2, 3\)のときと同様に、スターリングの公式を使うと次のように書ける。
\[ W \simeq \prod_{l=1}^{k-1} \frac{1}{\sqrt{2\pi n p_{l}}} \frac{1}{\sqrt{p_{k}}}\left[\prod_{l=1}^{k}\left(1 + \frac{m_{l}}{np_{l}}\right)\right]^{-n}\prod_{l=1}^{k}\left(1 + \frac{z_{l}^{2}}{m_{l}}\right)^{-m_{l}}~~(1)\]
\([\ldots]\)の部分は、
\[ \left(1 + \frac{m_{l}}{np_{l}}\right)^{p_{l}} \simeq 1 + \frac{m_{l}}{n} + \frac{m_{l}^{2}}{2n^{2}} - \frac{m_{l}^{2}}{2p_{l}n^{2}}~~(*)\]
なので、\(s_{k} = \sum_{i=1}^{k} m_{i}\)とすると一般に
\[ [\ldots] \simeq 1 + \frac{s_{k}}{n} + \frac{s_{k}^{2}}{2n^{2}} - \sum_{l=1}^{k}\frac{m_{l}^{2}}{2n^{2}p_{l}}~~(2)\]
になる。これを数学的帰納法を使って、証明できる。\(k=1\)のときは、\((*)\)から成り立つ。\(k = t\)のときに成り立つと仮定して、\(k = t + 1\)も成り立つことを示す。
\[ \begin{align*} [\ldots] &\simeq \left(1 + \frac{s_{t}}{n} + \frac{s_{t}^{2}}{2n^{2}} - \sum_{l=1}^{t}\frac{m_{l}^{2}}{2n^{2}p_{l}}\right) \left(1 + \frac{m_{t+1}}{n} + \frac{m_{t+1}^{2}}{2n^{2}} - \frac{m_{t+1}^{2}}{2n^{2}p_{t+1}} \right)\\ &\simeq 1 + \frac{s_{t} + m_{t+1}}{n} + \frac{s_{k}^{2} + m_{k+1}^{2} + 2s_{t}m_{t+1}}{2n^{2}} - \sum_{l=1}^{t+1}\frac{m_{l}^{2}}{2n^{2}p_{l}}\\ &= 1 + \frac{s_{k+1}}{n} + \frac{s_{k+1}^{2}}{2n^{2}} - \sum_{l=1}^{t+1}\frac{m_{l}^{2}}{2n^{2}p_{l}} \end{align*} \]
以上より\((2)\)が一般に成り立つことが示せた。\(s_{k} = 0\)と\(z_{l}^{2} = m_{l}^{2}/(np_{l})\)を使うと
\[ W \simeq \frac{1}{\sqrt{p_{k}}}\prod_{l=1}^{k-1} \frac{1}{\sqrt{2\pi np_{l}}} e^{-x_{k}^{2}/2}\]
が得られる。\(x_{i}\)の定義は三項分布のときと同じである。この式から確率密度関数を求めると、次のようになる。
\[ p(x_{1}, x_{2}, \ldots x_{k-1}) = \frac{1}{\sqrt{\det [\mathrm{A}] p_{k}}}\prod_{l=1}^{k-1} \frac{1}{\sqrt{2\pi}} e^{-x_{i}^{2}/2}\]
式中の行列\(\mathrm{A}\)は以前、三項分布のときに定義したように

\[
\left(
\begin{array}{cccc}
1 + \frac{p_{1}}{p_{k}} & \frac{\sqrt{p_{1}p_{2}}}{p_{k}} & \ldots &  \frac{\sqrt{p_{1}p_{k-1}}}{p_{k}} \\
 \frac{\sqrt{p_{1}p_{2}}}{p_{k}} & 1 + \frac{p_{2}}{p_{k}} & \ldots &  \frac{\sqrt{p_{2}p_{k-1}}}{p_{k}} \\
\vdots & \vdots & \ddots & \ldots \\
 \frac{\sqrt{p_{1}p_{k-1}}}{p_{k}} &  \frac{\sqrt{p_{2}p_{k-1}}}{p_{k}} & \ldots &  1 + \frac{p_{k-1}}{p_{k}}\\
\end{array}
\right)
\]
である。確率が規格化されているためには、\(\det[\mathrm{A}] = 1/p_{k}\)になるべきだが、実際にそうなっているだろうか。これが次の疑問である。

次回

行列\(\mathrm{A}\)の行列式を計算しようと思います。

0 件のコメント:

コメントを投稿