問題
2つの特徴、例えば、背の高さと足の速さのようなものを考える。これらはそれぞれ、{高い, 低い}と{速い、 遅い}を取るとする。小学4年生男子を、この特徴で分類すると4つに別れる。これらの数をそれぞれ\(n_{11}, n_{12}, n_{21}, n_{22}\)と書くことにする。ここで左のインデックスを背の高さ、右のインデックスを足の速さとし、
\[
\begin{align*}
&(\text{高い}, \text{低い}) \to (1, 2)\\
&(\text{速い}, \text{遅い}) \to (1, 2)
\end{align*}
\]
という対応をとるとする。このようにすると、特徴の詳細に全く依らない書き方になる。
\(n_{ij}\)の合計は\(n\)に固定しておく。これらの分類がどれだけの割合になるかは分からないとする。
この2つの特徴は独立であるとすると、特徴1が\(i\)、特徴2が\(j\)に分類される確率\(p_{ij}\)は次のように2つの確率の積で書ける。
\[ p_{ij} = p_{i\circ} p_{\circ j}\]
最尤推定から、これらの確率を推定すると結果は次のようになる。
\[ \begin{align*} &p_{i\circ} = \frac{n_{i \circ }}{n},~~~~p_{\circ j} = \frac{n_{\circ j}}{n}\\ &n_{i \circ} := n_{i 1} + n_{i 2}\\ &n_{\circ j} := n_{1 j} + n_{2 j} \end{align*} \]
このときの確率分布を求めよ。
最尤推定によって加わった条件式を除けば、4項分布の場合にあたる。\(n\)は大きいとして、正規分布に近似する。\(z_{ij} = \frac{n_{ij} - n p_{ij}}{\sqrt{np_{ij}}}\)を確率変数とすると、確率密度関数は、次のように書ける。
\[ p(z_{11}, z_{21}, z_{12}, z_{22}) = \prod_{i=1, j=1}^{2} \frac{1}{\sqrt{2\pi}} e^{-z_{ij}^{2}/2}\]
ここで\(p_{ij}\)の定義に注意すると\(z_{ij}\)は、次のように書ける。
\[ \begin{align*} &z_{11} = \frac{n_{11} - n_{1 \circ} p_{\circ 1}}{\sqrt{n_{1\circ} p_{\circ 1}}}\\ &z_{12} = \frac{n_{12} - n_{1 \circ} p_{\circ 2}}{\sqrt{n_{1\circ} p_{\circ 2}}}\\ &z_{21} = \frac{n_{21} - n_{2 \circ} p_{\circ 1}}{\sqrt{n_{2\circ} p_{\circ 1}}}\\ &z_{22} = \frac{n_{22} - n_{2 \circ} p_{\circ 2}}{\sqrt{n_{2\circ} p_{\circ 2}}} \end{align*} \]
上2つと下2つのそれぞれのペアは2次元正規分布の条件付き確率を求めたときの計算を\(n \to n_{\circ i},~~ p_{i} \to p_{i \circ}\)に置き換えたものに一致するから、以前\(\delta\)で\(z_{2}\)を書きなおしたように\(z_{i 2}\)を\(\delta_{i}\)で書き直せる。
\[p(z_{11}, z_{21}, \delta_{1}, \delta_{2}) = \left(\frac{1}{\sqrt{2\pi}}\right)^{4}\prod_{i=1}^{2} \exp \left[-\frac{1}{2p_{\circ 2}}(z_{i1} - \mu(\delta_{i}))^{2} + \phi(\delta_{i}) \right] \]
更に\(z_{21} = -\sqrt{\frac{p_{1\circ}}{p_{2\circ}}} z_{11} + \delta_{3}\)と置くと
\[p(z_{11}, \boldsymbol{\delta}) = \left(\frac{1}{\sqrt{2\pi}}\right)^{4} \exp \left[-\frac{1}{2p_{2\circ}p_{\circ 2}}(z_{11} - \mu(\boldsymbol{\delta}))^{2} + \phi(\boldsymbol{\delta}) \right]\]
と書ける。条件確率は定義から、次のように計算できる。
\[ \begin{align*} p(Z_{11} = z_{11}, \boldsymbol{\Delta} = 0) &= \frac{p(Z_{11} = z_{11}, \boldsymbol{\Delta} = 0)}{p(\boldsymbol{\Delta} = 0)}\\ &= \frac{1}{\sqrt{2\pi p_{2\circ} p_{\circ 2}}} e^{-\frac{1}{2p_{2\circ} p_{\circ 2}}z_{11}^{2}} \end{align*} \]
この式から、\(Z := Z_{11}/\sqrt{p_{2\circ} p_{\circ 2}}\)は1次元の標準正規分布に従うことが分かる。
\[ p_{ij} = p_{i\circ} p_{\circ j}\]
最尤推定から、これらの確率を推定すると結果は次のようになる。
\[ \begin{align*} &p_{i\circ} = \frac{n_{i \circ }}{n},~~~~p_{\circ j} = \frac{n_{\circ j}}{n}\\ &n_{i \circ} := n_{i 1} + n_{i 2}\\ &n_{\circ j} := n_{1 j} + n_{2 j} \end{align*} \]
このときの確率分布を求めよ。
解答
\(p_{i \circ}, p_{\circ j}, n\)は定数なので、下の2式が条件になる。\(\sum_{i=1}^{2} n_{i \circ} = \sum_{i=1}^{2} n_{\circ i} = n\)だから独立なのは、2つである。今考えている問題は\(\sum_{i, j} n_{i, j} = n\)と合わせれば、条件式は計3つになる。以後の計算では、\(n_{1\circ}, n_{2\circ}, n_{\circ 1}\)が定数になるのが条件だと思って計算する。最尤推定によって加わった条件式を除けば、4項分布の場合にあたる。\(n\)は大きいとして、正規分布に近似する。\(z_{ij} = \frac{n_{ij} - n p_{ij}}{\sqrt{np_{ij}}}\)を確率変数とすると、確率密度関数は、次のように書ける。
\[ p(z_{11}, z_{21}, z_{12}, z_{22}) = \prod_{i=1, j=1}^{2} \frac{1}{\sqrt{2\pi}} e^{-z_{ij}^{2}/2}\]
ここで\(p_{ij}\)の定義に注意すると\(z_{ij}\)は、次のように書ける。
\[ \begin{align*} &z_{11} = \frac{n_{11} - n_{1 \circ} p_{\circ 1}}{\sqrt{n_{1\circ} p_{\circ 1}}}\\ &z_{12} = \frac{n_{12} - n_{1 \circ} p_{\circ 2}}{\sqrt{n_{1\circ} p_{\circ 2}}}\\ &z_{21} = \frac{n_{21} - n_{2 \circ} p_{\circ 1}}{\sqrt{n_{2\circ} p_{\circ 1}}}\\ &z_{22} = \frac{n_{22} - n_{2 \circ} p_{\circ 2}}{\sqrt{n_{2\circ} p_{\circ 2}}} \end{align*} \]
上2つと下2つのそれぞれのペアは2次元正規分布の条件付き確率を求めたときの計算を\(n \to n_{\circ i},~~ p_{i} \to p_{i \circ}\)に置き換えたものに一致するから、以前\(\delta\)で\(z_{2}\)を書きなおしたように\(z_{i 2}\)を\(\delta_{i}\)で書き直せる。
\[p(z_{11}, z_{21}, \delta_{1}, \delta_{2}) = \left(\frac{1}{\sqrt{2\pi}}\right)^{4}\prod_{i=1}^{2} \exp \left[-\frac{1}{2p_{\circ 2}}(z_{i1} - \mu(\delta_{i}))^{2} + \phi(\delta_{i}) \right] \]
更に\(z_{21} = -\sqrt{\frac{p_{1\circ}}{p_{2\circ}}} z_{11} + \delta_{3}\)と置くと
\[p(z_{11}, \boldsymbol{\delta}) = \left(\frac{1}{\sqrt{2\pi}}\right)^{4} \exp \left[-\frac{1}{2p_{2\circ}p_{\circ 2}}(z_{11} - \mu(\boldsymbol{\delta}))^{2} + \phi(\boldsymbol{\delta}) \right]\]
と書ける。条件確率は定義から、次のように計算できる。
\[ \begin{align*} p(Z_{11} = z_{11}, \boldsymbol{\Delta} = 0) &= \frac{p(Z_{11} = z_{11}, \boldsymbol{\Delta} = 0)}{p(\boldsymbol{\Delta} = 0)}\\ &= \frac{1}{\sqrt{2\pi p_{2\circ} p_{\circ 2}}} e^{-\frac{1}{2p_{2\circ} p_{\circ 2}}z_{11}^{2}} \end{align*} \]
この式から、\(Z := Z_{11}/\sqrt{p_{2\circ} p_{\circ 2}}\)は1次元の標準正規分布に従うことが分かる。
0 件のコメント:
コメントを投稿