適合度検定

データにある確率分布をあてはめ,あてはまりのよさを検定するのが適合度検定(goodness of fit test)です.この検定の問題に対して,標本は元のデータに対応します.また,想定した確率分布には,ある確率変数$ X$が対応しています.

(1) 多項分布に対する適合度の検定

ある試行の結果,$ k$個の事象 $ A_{1},A_{2},\ldots,A_{k}$のいずれかが現われるとします.ここで,$ A_{i}$が起こる確率を$ P(A_{i})$とすると,

$\displaystyle P(A_{i})$ $\displaystyle =$ $\displaystyle p_{i}$  
$\displaystyle p_{1}+p_{2} + \cdots + p_{k}$ $\displaystyle =$ $\displaystyle 1$  

となります.この試行を$ n$回独立に行なうとき, $ A_{1},A_{2},\ldots,A_{k}$がそれぞれ $ n_{1},n_{2},\ldots,n_{k}$回現われる確率は

$\displaystyle {n\choose{n_{1},n_{2},\ldots,n_{k}}} p_{1}^{n_{1}}p_{2}^{n_{2}}\c...
...{n!}{n_{1}! n_{2}! \cdots n_{k}!}p_{1}^{n_{1}}p_{2}^{n_{2}}\cdots p_{k}^{n_{k}}$

ここで,$ k=2$のときは,2項分布に他なりません.この2項分布の一般化を多項分布(multinomial distribution)といい,$ n$回の独立試行で事象$ A_{i}$が起こる回数を確率変数$ X_{i}$で表すと,

$\displaystyle P(X_{1} = n_{1}, X_{2} = n_{2} , \ldots, X_{k} = n_{k}) = \frac{n!}{n_{1}! n_{2}! \cdots n_{k}!}p_{1}^{n_{1}}p_{2}^{n_{2}}\cdots p_{k}^{n_{k}}$

となります.

例題 4..7  

それぞれの目が出る確率が等しいサイコロがある.これを6回投げたとき,1から6までが1回ずつ現れる確率を求めよ.

各数字が現れる確率は $ \frac{1}{6}$で,1から6までが1回ずつ現れる組み合わせは $ {6\choose{1,1,1,1,1,1}}$通り.したがって,その確率は

$\displaystyle {6\choose{1,1,1,1,1,1}}(\frac{1}{6})^{6} = \frac{6!}{6^6} = \frac{6\cdot5\cdot4\cdot3\cdot2\cdot1}{6\cdot6\cdot6\cdot6\cdot6\cdot6} = \frac{5}{324}$

次に, $ A_{1},A_{2},\ldots,A_{k}$の互いに排反な事象のいずれかが現われる多項分布を考えます. $ P(A_{i}) = p_{i}$とすると,大きさ$ n$の標本のうち$ A_{i}$に入る期待値は $ np_{i} = m_{i}$となります.一方,大きさ$ n$の標本のうち$ A_{i}$の部分に入る個数を確率変数$ X_{i}$で表すと,次のことが知られています.$ m \geq 5$のとき,

$\displaystyle \chi^2 = \frac{(X_{1} - m_{1})^2}{m_{1}} + \frac{(X_{2} - m_{2})^2}{m_{2}} + \cdots + \frac{(X_{k} - m_{k})^2}{m_{k}}$

$ \chi^2(k-1)$に従う.

理論度数$ m_{i}$と実測度数$ X_{i}$がすべての$ i$について近い値であれば,$ \chi^2$は全体として小さな値となります.したがって,$ \chi^2$が大きな値となったとき,その理論値$ m_{i}$に疑問が持たれます.このことから,次のような適合度の検定が得られます. 帰無仮説 $ H_{0} : p_{1} = p_{10}, p_{2} = p_{20}, \ldots, p_{k} = p_{k0}$
($ p_{i0}$は正数で $ p_{10} + p_{20} + \cdots + p_{k0} = 1$となる数)

対立仮説 $ H_{1} : p_{1} = p_{11}, p_{2} = p_{21}, \ldots, p_{k} = p_{k1}$
ただし, $ (p_{11},p_{21},\ldots,p_{k1}) \neq (p_{10},p_{20},\ldots,p_{k0})$である. ここでは問題の性質上,片側検定にあたるものは考えられません. $ H_{0}$のもとで$ A_{i}$に入る理論度数$ m_{i}$は,

$\displaystyle m_{i} = np_{i0}$

で与えられます.ここでは,$ n$は十分大きな値で,すべての$ i$に対して $ m_{i} \geq 5$となるとします.$ A_{i}$に入る標本値が$ x_{i}$であるとき

$ \displaystyle{\chi^2 = \sum_{i=1}^{k}\frac{(x_{i} - np_{i0})^2}{np_{i0}} > \chi^2_{\alpha,k-1}}$ならば$ H_{0}$を棄却する.

これによって適合度が検定できます.

例題 4..8  

あるサイコロを600回投げたところ,次のような表が得られた.各目の現れる確率が等しいと考えられるか,有意水準0.05で検定しよう.

目の数 1 2 3 4 5 6
回数 102 89 87 106 115 101 600

1 
$ H_{0}$ : 「各目の現れる確率は等しい」 $ ({p_{1}}, {p_{2}}, {p_{3}}, {p_{4}}, {p_{5}}, {p_{6}} = \frac{1}{6}, \frac{1}{6}, \frac{1}{6}, \frac{1}{6}, \frac{1}{6}, \frac{1}{6})$
$ H_{1}$ : 「各目の現れる確率は等しくない」 $ ({p_{1}}, {p_{2}}, {p_{3}}, {p_{4}}, {p_{5}}, {p_{6}} \neq \frac{1}{6}, \frac{1}{6}, \frac{1}{6}, \frac{1}{6}, \frac{1}{6}, \frac{1}{6})$

2 有意水準 $ \alpha = 0.05$

3 統計量

$\displaystyle \chi^{2} = \sum_{i=1}^{6}\frac{(X_{i} - np_{i})^{2}}{np_{i}} = \sum_{i=1}^{6}\frac{X_{i}^{2}}{np_{i}} - n$

4 $ H_{0}$のもとで,

$\displaystyle \chi_{0}^{2}$ $\displaystyle =$ $\displaystyle \frac{102^{2}}{100} + \frac{89^{2}}{100} + \frac{87^{2}}{100} + \frac{106^{2}}{100} + \frac{115^2}{100} + \frac{101^2}{100}- 600$  
  $\displaystyle =$ $\displaystyle 104.04 + 79.21 + 75.69 + 112.36 + 132.25 + 102.01- 600 = 5.56$  

5  $ \chi_{0.05, 6-1}^{2} = 12.83$より,

$\displaystyle \chi_{0}^{2} = 5.56 < \chi_{0.05, 5}^{2} = 11.07$

したがって,$ H_{0}$を容認.

統計学演習問題 11

1 ある遺伝形質は $ A : B : C : D = 9:3:3:1$のメンデル比に従って現われるとされているが,実験の結果次の表を得た.メンデル比に従っているといえるか,有意水準5%で検定しよう.
遺伝形質 A B C D  
観測度数 243 72 78 15 408  

(2) 確率分布に対する適合度の検定

ここでは,ある分布が正規分布に従う,あるいはポワソン分布に従う,ということ自体が帰無仮説となる適合度検定を考えます.つまり,

帰無仮説 $ H_{0}$ : 「ある分布Dに従う」

を設定します.$ D$の分布は既知であって,母数 $ \theta_{1},\theta_{2},\ldots,\theta_{i}$を含んでいるとします.例えば,正規分布では $ \mu, \sigma^2$の2個の母数を含み,これらの値は不明であるとします.

次に排反な各階級 $ A_{1},A_{2},\ldots,A_{k}$に入る個数 $ (X_{1},X_{2},\ldots,X_{k})$の実現値を $ (x_{1},x_{2},\ldots,x_{k})$とし,母数 $ \theta_{i}$をこの値を用いて推定します.つまり,

$\displaystyle \theta_{i} = \hat{\theta_{i}}(x_{1},x_{2},\ldots,x_{k})   (i = 1,2,\ldots,l)$

この $ \theta_{i}$を用いて各階級 $ A_{1},A_{2},\ldots,A_{k}$に入るべき期待度数 $ m_{1},m_{2},\ldots,m_{k}$を求めます.ここで, $ m_{i} = np_{i0}$. つまり,

$\displaystyle \chi^2 = \sum_{i=1}^{k}\frac{(X_{i} - m_{i})^2}{m_{i}}$

を求めます.このとき, $ \chi^2 \sim \chi^2_{k-l-1}$であることが分かっています.そして,これを用いて$ H_{0}$の検定を行ないます.

例題 4..9  

ある軍隊の10個の部隊において,1年間に馬に蹴られて死亡した兵士の数とその部隊数を10年間調べた結果次のような表になった.

死亡者数 0 1 2 3 4
部隊数 109 65 22 3 1 200
この表はポワソン分布に従うか,有意水準5%で検定しよう.

1 
$ H_{0}$ : 「ポワソン分布 $ P(\lambda)$に従っている」

2 有意水準 $ \alpha = 0.05$

3 統計量

この表をポワソン分布とみて,死亡数の理論値を求める.これがポワソン分布 $ P(\lambda)$によるものと考えて,$ \lambda$の値を推定する.死亡者数$ k$のときの確率を$ p_{k}$とすると,

$\displaystyle \sum_{k=0}^{\infty}kp_{k} = E(X) = \lambda$


死亡者数 $ k$ 0 1 2 3 4
部隊数 $ f_{k}$ 109 65 22 3 1 200
  $ kf_{k}$ 0 65 44 9 4 122
  $ p_{k}$ 0.5435 0.3313 0.1011 0.0206 0.0031  
理論度数 $ m_{k}$ 108.7 66.3 20.2 4.1 0.6  

ここで, $ np_{k} \approx f_{k}$より $ \sum_{k}kf_{k} \approx \lambda n$.これより平均値$ \lambda$

$\displaystyle \lambda \approx \frac{1}{n}\sum_{k}kf_{k} = \frac{122}{200} = 0.61$


死亡者数 $ k$ 0 1 2 3 4
部隊数 $ x_{k}$ 109 65 22 3 1 200
理論度数 $ m_{k}$ 108.7 66.3 20.2 4.1 0.6  

この表で,$ k \geq 3$の所の$ m_{k}$は単独で5よりも小さいので,$ \chi^2$検定ができない.そこで,右から順に$ m_{i}$を加えて5を越すまで合併すると,$ k \geq 2$の階級を1つにしなければならない.したがって,

$\displaystyle \chi^{2} = \sum_{i=0}^{2}\frac{(x_{i} - m_{i})^{2}}{m_{i}} $

4 $ H_{0}$のもとで,

$\displaystyle \chi_{0}^{2}$ $\displaystyle =$ $\displaystyle \frac{(109-108.7)^2}{108.7} + \frac{(65-66.3)^2}{66.3} + \frac{(26-25)^{2}}{25}$  
  $\displaystyle =$ $\displaystyle 0.066$  

5  $ \chi_{0.05, 3-1-1}^{2} = 3.84$より,

$\displaystyle \chi_{0}^{2} = 0.066 < \chi_{0.05, 1}^{2} = 3.84$

したがって,$ H_{0}$を容認.

母数$ \lambda$が標本から1個推定されたので,自由度は $ 3 - 1 -1 = 1$となる.

(3) 独立性の検定

母集団の要素は,すべて$ A,B$の2種類の属性をもち,$ A,B$はそれぞれ排反な $ A_{1},\ldots,A_{k}$および $ B_{1},\ldots,B_{l}$に分かれているとします.母集団から大きさ$ n$の標本を抽出して, $ A_{i} \cap B_{j}$に入る観測度数を$ x_{ij}$とすると,次の表のように行列の形に整理できる.

  $ B_{1}$ $ B_{2}$ $ \cdots$ $ B_{l}$
$ A_{1}$ $ x_{11}$ $ x_{12}$ $ \cdots$ $ x_{1l}$ $ x_{1}$
$ A_{2}$ $ x_{21}$ $ x_{22}$ $ \cdots$ $ x_{2l}$ $ x_{2}$
$ A_{3}$ $ \vdots$ $ \vdots$   $ \vdots$ $ \vdots$
$ A_{k}$ $ x_{k1}$ $ x_{k2}$ $ \cdots$ $ x_{kl}$ $ x_{k}$
ここで, $ x_{i.},x_{.j}$は周辺度数である.このような表を $ k \times l$分割表(contingency table)という.

これを用いて,母集団の属性$ A$$ B$が無関係であるかを調べることを独立性の検定という.独立性の検定には適合度の検定を応用することができる.

$ A_{i},B_{j}$の出現度数の確率変数を$ X_{ij}$ $ A_{i},B_{j}$の実現する確率を $ p_{i},q_{j}$.また, $ A_{i},B_{j}$が同時に起こる確率を$ P_{ij}$とする.

ここで,次のような適合度の検定を考える.
帰無仮説 : 「属性$ A,B$は独立である」
対立仮説 : 「属性$ A,B$は従属である」

帰無仮説$ H_{0}$のもとで

$\displaystyle P_{ij} = P_{r}(A_{i} \cap B_{j}) = P_{r}(A_{i})P_{r}(B_{j}) = p_{i}q_{j}$

が成り立つ.ここで, $ p_{i},q_{j}$は母数なのでこれを最尤法によって推定すると,それらの推定値は

$\displaystyle \hat{p_{i}} = \frac{x_{i.}}{n},  \hat{q_{j}} = \frac{x_{.j}}{n}$

で与えられる. このとき,$ n$が十分大きければ,帰無仮説$ H_{0}$のもとで統計量

$\displaystyle \chi^2 = \sum_{i=1}^{k}\sum_{j=1}^{l}\frac{(X_{ij} - nP_{ij})^2}{nP_{ij}}$

が自由度 $ (k-1)(l-1)$のカイ2乗分布に従うことが知られている.観測度数$ x_{ij}$を用いると,統計量$ \chi^2$の実現値は
$\displaystyle \chi_{0}^2$ $\displaystyle =$ $\displaystyle \sum_{i=1}^{k}\sum_{j=1}^{l}\frac{(x_{ij} - n\hat{p_{i}}\hat{q_{j}})^2}{n\hat{p_{i}}\hat{q_{j}}}$  
  $\displaystyle =$ $\displaystyle \sum_{i=1}^{k}\sum_{j=1}^{l}\left\{\frac{x_{ij}^2}{n\hat{p_{i}}\h...
...= n\left\{\sum_{i=1}^{k}\sum_{j=1}^{l}\frac{x_{ij}^2}{x_{i.}x_{.j}} - 1\right\}$  

となる.

統計学演習問題 12

1 ある軍隊の10個の部隊において,1年間に馬に蹴られて死亡した兵士の数とその部隊数を10年間調べた結果次のような表になった.

死亡者数 0 1 2 3 4
部隊数 142 99 46 11 3 300
この表はポワソン分布に従うか,有意水準5%で検定しよう.

2 350人の大人を無作為に抽出して,飲酒と喫煙について答えてもらった.その際,飲酒の程度を低い方から $ A_{1},A_{2},A_{3}$と3段階に分け,喫煙の程度は低い方から $ B_{1},B_{2},B_{3},B_{4}$と4段階に分けた.結果は次の通りであった.飲酒と喫煙は関係があるか,有意水準5%で検定しよう.

  $ B_{1}$ $ B_{2}$ $ B_{3}$ $ B_{4}$  
$ A_{1}$ 39 54 49 17 159  
$ A_{2}$ 27 43 40 9 119  
$ A_{3}$ 14 23 15 20 72  
80 120 104 46 350