ページ

2013年5月13日月曜日

2種の属性が独立であるときの確率分布

問題

独立な2種の属性\(A, B\)のカテゴリー数をそれぞれ\(a, b (\ge 2)\)とする。\(n\)個のサンプルを取った時、\(A = A_{i},~~B = B_{j}\)をとる度数はそれぞれ\(n_{i j}\)とする。\(A = A_{i},~~B = B_{j}\)の生起確率は、属性は独立なので\(p_{ij} = p_{i\circ} p_{\circ j}\)である。\(p_{i \circ}, p_{\circ j}\)の真の値は不明として、最尤推定値
\[ p_{i \circ} = \frac{n_{i\circ}}{n},~~p_{\circ j} = \frac{n_{\circ j}}{n}\]
を使う。このとき
\[ z_{ij} = \frac{n_{ij} - np_{ij}}{\sqrt{np_{ij}}}\]
を実現値とする、確率変数\(Z_{ij}\)の2乗の和
\[Z^{2} = \sum_{i=1}^{a}\sum_{j=1}^{b} (Z_{ij})^{2}\]
の従う確率分布は自由度\((a-1)(b-1)\)の\(\chi^{2}\)分布であることを示せ。

解答

\(n\)回の測定によって得られた度数分布が得られる確率は、多項分布に従っている。\(n\)が大きいことを使うと更に、これを正規分布に近似することができる。指数関数の肩は\(-z^{2}/2\)になる。

今回\(p_{ij}\)を推定値に置き換えたことによって、\((a-1) + (b-1)\)個の条件式が課されている。この条件を\(z_{ij}\)で書き直すと
\[ \begin{align*} &\sum_{j=1}^{a} z_{ij} \sqrt{p_{\circ j}} = 0\\ &\sum_{i=1}^{b} z_{ij} \sqrt{p_{i\circ}} = 0 (*)\end{align*} \]
である。これは、\(np_{ij} = n_{i\circ}p_{\circ j} = n_{\circ j}p_{i \circ}\)を使うと確率変数が
\[ z_{ij} = \frac{n_{ij} - n_{i\circ}p_{\circ j}}{\sqrt{n_{i\circ}p_{\circ j}}} = \frac{n_{ij} - n_{\circ j}p_{i \circ}}{\sqrt{n_{\circ j}p_{i \circ}}}\]
と書けるので、あとは\(\sum_{i} p_{i\circ} = \sum_{j} p_{\circ j} = 1\)と\(\sum_{i}n_{ij} = n_{\circ j},~~\sum_{j} n_{ij} = n_{i \circ}\)を使うと得られる。

この得られた式を使うと、\(z_{ia} (i=1, \ldots , b)\)は\(z_{ij} (i=1, \ldots , b),~~(j = 1, \ldots , a-1)\)の和で書ける。これを\(z_{i\circ}^{2} := \sum_{j=1}^{a} z_{ij}^{2}\)に使うと
\[ z_{i\circ}^{2} = \sum_{j, k=1}^{a-1} c_{jk} z_{ij}z_{ik}\]
である。特に\(z_{b\circ}^{2}\)は\(z_{bj}~~(j = 1, \ldots , a-1)\)の二次式の和である。式(*)のまだ使っていない、もう1つの条件式を使うと\(z_{bj}\)は\(z_{ij}~~(i=1, \ldots, b-1)(j=1, \ldots , a-1)\)の和で書けるから、
\[ z_{b\circ}^{2} = \sum_{i,k=1}^{b-1}\sum_{j, l=1}^{a-1} c_{ijkl}z_{ij}z_{kl}\]
と書ける。\(z_{i\circ}^{2}~~(i=1, \ldots , b-1)\)はすでに\(z_{ij}~~(i=1,\ldots , b-1)(j=1, \ldots , a-1)\)の2次式の和であったから\(z^{2}\)も、その\((a-1)(b-1)\)個の変数の二次式になる。ここで2つの添字をまとめて1つの\((a-1)(b-1)\)次元ベクトル\(\boldsymbol{y}\)を導入すると、対称行列\(\mathrm{A}\)を使って、次のようにまとめることができる。
\[ z^{2} = \boldsymbol{y}^{t} \mathrm{A} \boldsymbol{y}\]
対称行列なので、直交行列\(\mathrm{O}\)で対角化できる。\(\mathrm{A}\)の固有値を\(\lambda_{i}\)とすると、\(x_{i} = \frac{1}{\sqrt{\lambda_{i}}}\sum_{j}\mathrm{O}_{ij}y_{j}\)となる変数で\(z^{2}\)を書き直すと
\[ z^{2} = \sum_{i=1}^{(a-1)(b-1)}x_{i}^{2}\]
になる。すると確率密度は\(\prod_{i=1}^{(a-1)(b-1)}e^{-x_{i}^{2}/2}\)に比例することが分かるが、規格化条件より
\[ p(\boldsymbol{x}) = \prod_{i=1}^{(a-1)(b-1)}\frac{1}{\sqrt{2\pi}} e^{-x_{i}^{2}/2}\]
となることが分かる。以上より、実現値\(x_{i}\)に対応する確率変数\(X_{i}\)が\(\mathrm{N}(0, 1)\)に従うことが分かった。\(\mathrm{N}(0, 1)\)に従う、独立変数の二乗和は、その変数の数を自由度とする\(\chi^{2}\)分布に従うので、\(Z^{2}\)は自由度\((a-1)(b-1)\)の\(\chi^{2}\)分布に従う。

0 件のコメント:

コメントを投稿