適合度検定(Goodness of fit)

データにある確率分布をあてはめ,あてはまりのよさを検定するのが適合度検定(goodness of fit test)です.この検定の問題に対して,標本は元のデータに対応します.また,想定した確率分布には,ある確率変数$X$が対応しています.

(1) 多項分布に対する適合度の検定

ある試行の結果,$k$個の事象 $A_{1},A_{2},\ldots,A_{k}$のいずれかが現われるとします.ここで,$A_{i}$が起こる確率を$P(A_{i})$とすると,

$\displaystyle P(A_{i})$ $\displaystyle =$ $\displaystyle p_{i}$  
$\displaystyle p_{1}+p_{2} + \cdots + p_{k}$ $\displaystyle =$ $\displaystyle 1$  

となります.この試行を$n$回独立に行なうとき, $A_{1},A_{2},\ldots,A_{k}$がそれぞれ $n_{1},n_{2},\ldots,n_{k}$回現われる確率は

$\displaystyle {n\choose{n_{1},n_{2},\ldots,n_{k}}} p_{1}^{n_{1}}p_{2}^{n_{2}}\c...
...{n!}{n_{1}! n_{2}! \cdots n_{k}!}p_{1}^{n_{1}}p_{2}^{n_{2}}\cdots p_{k}^{n_{k}}$

ここで,$k=2$のときは,2項分布に他なりません.この2項分布の一般化を多項分布(multinomial distribution)といい,$n$回の独立試行で事象$A_{i}$が起こる回数を確率変数$X_{i}$で表すと,

$\displaystyle P(X_{1} = n_{1}, X_{2} = n_{2} , \ldots, X_{k} = n_{k}) = \frac{n!}{n_{1}! n_{2}! \cdots n_{k}!}p_{1}^{n_{1}}p_{2}^{n_{2}}\cdots p_{k}^{n_{k}}$

となります.

例題 4..7  

それぞれの目が出る確率が等しいサイコロがある.これを6回投げたとき,1から6までが1回ずつ現れる確率を求めよ.

各数字が現れる確率は $\frac{1}{6}$で,1から6までが1回ずつ現れる組み合わせは ${6\choose{1,1,1,1,1,1}}$通り.したがって,その確率は

$\displaystyle {6\choose{1,1,1,1,1,1}}(\frac{1}{6})^{6} = \frac{6!}{6^6} = \frac{6\cdot5\cdot4\cdot3\cdot2\cdot1}{6\cdot6\cdot6\cdot6\cdot6\cdot6} = \frac{5}{324}$

次に, $A_{1},A_{2},\ldots,A_{k}$の互いに排反な事象のいずれかが現われる多項分布を考えます. $P(A_{i}) = p_{i}$とすると,大きさ$n$の標本のうち$A_{i}$に入る期待値は $np_{i} = m_{i}$となります.一方,大きさ$n$の標本のうち$A_{i}$の部分に入る個数を確率変数$X_{i}$で表すと,次のことが知られています.$m \geq 5$のとき,

$\displaystyle \chi^2 = \frac{(X_{1} - m_{1})^2}{m_{1}} + \frac{(X_{2} - m_{2})^2}{m_{2}} + \cdots + \frac{(X_{k} - m_{k})^2}{m_{k}}$

$\chi^2(k-1)$に従う.

理論度数$m_{i}$と実測度数$X_{i}$がすべての$i$について近い値であれば,$\chi^2$は全体として小さな値となります.したがって,$\chi^2$が大きな値となったとき,その理論値$m_{i}$に疑問が持たれます.このことから,次のような適合度の検定が得られます. 帰無仮説 $H_{0} : p_{1} = p_{10}, p_{2} = p_{20}, \ldots, p_{k} = p_{k0}$
($p_{i0}$は正数で $p_{10} + p_{20} + \cdots + p_{k0} = 1$となる数)

対立仮説 $H_{1} : p_{1} = p_{11}, p_{2} = p_{21}, \ldots, p_{k} = p_{k1}$
ただし, $(p_{11},p_{21},\ldots,p_{k1}) \neq (p_{10},p_{20},\ldots,p_{k0})$である. ここでは問題の性質上,片側検定にあたるものは考えられません. $H_{0}$のもとで$A_{i}$に入る理論度数$m_{i}$は,

$\displaystyle m_{i} = np_{i0}$

で与えられます.ここでは,$n$は十分大きな値で,すべての$i$に対して $m_{i} \geq 5$となるとします.$A_{i}$に入る標本値が$x_{i}$であるとき

$\displaystyle{\chi^2 = \sum_{i=1}^{k}\frac{(x_{i} - np_{i0})^2}{np_{i0}} > \chi^2_{\alpha,k-1}}$ならば$H_{0}$を棄却する.

これによって適合度が検定できます.

例題 4..8  

あるサイコロを600回投げたところ,次のような表が得られた.各目の現れる確率が等しいと考えられるか,有意水準0.05で検定しよう.

目の数 1 2 3 4 5 6
回数 102 89 87 106 115 101 600

1 
$H_{0}$ : 「各目の現れる確率は等しい」 $({p_{1}}, {p_{2}}, {p_{3}}, {p_{4}}, {p_{5}}, {p_{6}} = \frac{1}{6}, \frac{1}{6}, \frac{1}{6}, \frac{1}{6}, \frac{1}{6}, \frac{1}{6})$
$H_{1}$ : 「各目の現れる確率は等しくない」 $({p_{1}}, {p_{2}}, {p_{3}}, {p_{4}}, {p_{5}}, {p_{6}} \neq \frac{1}{6}, \frac{1}{6}, \frac{1}{6}, \frac{1}{6}, \frac{1}{6}, \frac{1}{6})$

2 有意水準 $\alpha = 0.05$

3 統計量

$\displaystyle \chi^{2} = \sum_{i=1}^{6}\frac{(X_{i} - np_{i})^{2}}{np_{i}} = \sum_{i=1}^{6}\frac{X_{i}^{2}}{np_{i}} - n$

4 $H_{0}$のもとで,

$\displaystyle \chi_{0}^{2}$ $\displaystyle =$ $\displaystyle \frac{102^{2}}{100} + \frac{89^{2}}{100} + \frac{87^{2}}{100} + \frac{106^{2}}{100} + \frac{115^2}{100} + \frac{101^2}{100}- 600$  
  $\displaystyle =$ $\displaystyle 104.04 + 79.21 + 75.69 + 112.36 + 132.25 + 102.01- 600 = 5.56$  

5  $\chi_{0.05, 6-1}^{2} = 12.83$より,

$\displaystyle \chi_{0}^{2} = 5.56 < \chi_{0.05, 5}^{2} = 11.07$

したがって,$H_{0}$を容認.

統計学演習問題 11

1 ある遺伝形質は $A : B : C : D = 9:3:3:1$のメンデル比に従って現われるとされているが,実験の結果次の表を得た.メンデル比に従っているといえるか,有意水準5%で検定しよう.
遺伝形質 A B C D  
観測度数 243 72 78 15 408  

(2) 確率分布に対する適合度の検定

ここでは,ある分布が正規分布に従う,あるいはポワソン分布に従う,ということ自体が帰無仮説となる適合度検定を考えます.つまり,

帰無仮説 $H_{0}$ : 「ある分布Dに従う」

を設定します.$D$の分布は既知であって,母数 $\theta_{1},\theta_{2},\ldots,\theta_{i}$を含んでいるとします.例えば,正規分布では $\mu, \sigma^2$の2個の母数を含み,これらの値は不明であるとします.

次に排反な各階級 $A_{1},A_{2},\ldots,A_{k}$に入る個数 $(X_{1},X_{2},\ldots,X_{k})$の実現値を $(x_{1},x_{2},\ldots,x_{k})$とし,母数 $\theta_{i}$をこの値を用いて推定します.つまり,

$\displaystyle \theta_{i} = \hat{\theta_{i}}(x_{1},x_{2},\ldots,x_{k}) \ \ (i = 1,2,\ldots,l)$

この $\theta_{i}$を用いて各階級 $A_{1},A_{2},\ldots,A_{k}$に入るべき期待度数 $m_{1},m_{2},\ldots,m_{k}$を求めます.ここで, $m_{i} = np_{i0}$. つまり,

$\displaystyle \chi^2 = \sum_{i=1}^{k}\frac{(X_{i} - m_{i})^2}{m_{i}}$

を求めます.このとき, $\chi^2 \sim \chi^2_{k-l-1}$であることが分かっています.そして,これを用いて$H_{0}$の検定を行ないます.

例題 4..9  

ある軍隊の10個の部隊において,1年間に馬に蹴られて死亡した兵士の数とその部隊数を10年間調べた結果次のような表になった.

死亡者数 0 1 2 3 4
部隊数 109 65 22 3 1 200
この表はポワソン分布に従うか,有意水準5%で検定しよう.

1 
$H_{0}$ : 「ポワソン分布 $P(\lambda)$に従っている」

2 有意水準 $\alpha = 0.05$

3 統計量

この表をポワソン分布とみて,死亡数の理論値を求める.これがポワソン分布 $P(\lambda)$によるものと考えて,$\lambda$の値を推定する.死亡者数$k$のときの確率を$p_{k}$とすると,

$\displaystyle \sum_{k=0}^{\infty}kp_{k} = E(X) = \lambda$


死亡者数 $k$ 0 1 2 3 4
部隊数 $f_{k}$ 109 65 22 3 1 200
  $kf_{k}$ 0 65 44 9 4 122
  $p_{k}$ 0.5435 0.3313 0.1011 0.0206 0.0031  
理論度数 $m_{k}$ 108.7 66.3 20.2 4.1 0.6  

ここで, $np_{k} \approx f_{k}$より $\sum_{k}kf_{k} \approx \lambda n$.これより平均値$\lambda$

$\displaystyle \lambda \approx \frac{1}{n}\sum_{k}kf_{k} = \frac{122}{200} = 0.61$


死亡者数 $k$ 0 1 2 3 4
部隊数 $x_{k}$ 109 65 22 3 1 200
理論度数 $m_{k}$ 108.7 66.3 20.2 4.1 0.6  

この表で,$k \geq 3$の所の$m_{k}$は単独で5よりも小さいので,$\chi^2$検定ができない.そこで,右から順に$m_{i}$を加えて5を越すまで合併すると,$k \geq 2$の階級を1つにしなければならない.したがって,

$\displaystyle \chi^{2} = \sum_{i=0}^{2}\frac{(x_{i} - m_{i})^{2}}{m_{i}} $

4 $H_{0}$のもとで,

$\displaystyle \chi_{0}^{2}$ $\displaystyle =$ $\displaystyle \frac{(109-108.7)^2}{108.7} + \frac{(65-66.3)^2}{66.3} + \frac{(26-25)^{2}}{25}$  
  $\displaystyle =$ $\displaystyle 0.066$  

5  $\chi_{0.05, 3-1-1}^{2} = 3.84$より,

$\displaystyle \chi_{0}^{2} = 0.066 < \chi_{0.05, 1}^{2} = 3.84$

したがって,$H_{0}$を容認.

母数$\lambda$が標本から1個推定されたので,自由度は $3 - 1 -1 = 1$となる.

(3) 独立性の検定

母集団の要素は,すべて$A,B$の2種類の属性をもち,$A,B$はそれぞれ排反な $A_{1},\ldots,A_{k}$および $B_{1},\ldots,B_{l}$に分かれているとします.母集団から大きさ$n$の標本を抽出して, $A_{i} \cap B_{j}$に入る観測度数を$x_{ij}$とすると,次の表のように行列の形に整理できる.

  $B_{1}$ $B_{2}$ $\cdots$ $B_{l}$
$A_{1}$ $x_{11}$ $x_{12}$ $\cdots$ $x_{1l}$ $x_{1}$
$A_{2}$ $x_{21}$ $x_{22}$ $\cdots$ $x_{2l}$ $x_{2}$
$A_{3}$ $\vdots$ $\vdots$   $\vdots$ $\vdots$
$A_{k}$ $x_{k1}$ $x_{k2}$ $\cdots$ $x_{kl}$ $x_{k}$
ここで, $x_{i.},x_{.j}$は周辺度数である.このような表を $k \times l$分割表(contingency table)という.

これを用いて,母集団の属性$A$$B$が無関係であるかを調べることを独立性の検定という.独立性の検定には適合度の検定を応用することができる.

$A_{i},B_{j}$の出現度数の確率変数を$X_{ij}$ $A_{i},B_{j}$の実現する確率を $p_{i},q_{j}$.また, $A_{i},B_{j}$が同時に起こる確率を$P_{ij}$とする.

ここで,次のような適合度の検定を考える.
帰無仮説 : 「属性$A,B$は独立である」
対立仮説 : 「属性$A,B$は従属である」

帰無仮説$H_{0}$のもとで

$\displaystyle P_{ij} = P_{r}(A_{i} \cap B_{j}) = P_{r}(A_{i})P_{r}(B_{j}) = p_{i}q_{j}$

が成り立つ.ここで, $p_{i},q_{j}$は母数なのでこれを最尤法によって推定すると,それらの推定値は

$\displaystyle \hat{p_{i}} = \frac{x_{i.}}{n}, \ \hat{q_{j}} = \frac{x_{.j}}{n}$

で与えられる. このとき,$n$が十分大きければ,帰無仮説$H_{0}$のもとで統計量

$\displaystyle \chi^2 = \sum_{i=1}^{k}\sum_{j=1}^{l}\frac{(X_{ij} - nP_{ij})^2}{nP_{ij}}$

が自由度 $(k-1)(l-1)$のカイ2乗分布に従うことが知られている.観測度数$x_{ij}$を用いると,統計量$\chi^2$の実現値は
$\displaystyle \chi_{0}^2$ $\displaystyle =$ $\displaystyle \sum_{i=1}^{k}\sum_{j=1}^{l}\frac{(x_{ij} - n\hat{p_{i}}\hat{q_{j}})^2}{n\hat{p_{i}}\hat{q_{j}}}$  
  $\displaystyle =$ $\displaystyle \sum_{i=1}^{k}\sum_{j=1}^{l}\left\{\frac{x_{ij}^2}{n\hat{p_{i}}\h...
...= n\left\{\sum_{i=1}^{k}\sum_{j=1}^{l}\frac{x_{ij}^2}{x_{i.}x_{.j}} - 1\right\}$  

となる.

統計学演習問題 12

1 ある軍隊の10個の部隊において,1年間に馬に蹴られて死亡した兵士の数とその部隊数を10年間調べた結果次のような表になった.

死亡者数 0 1 2 3 4
部隊数 142 99 46 11 3 300
この表はポワソン分布に従うか,有意水準5%で検定しよう.

2 350人の大人を無作為に抽出して,飲酒と喫煙について答えてもらった.その際,飲酒の程度を低い方から $A_{1},A_{2},A_{3}$と3段階に分け,喫煙の程度は低い方から $B_{1},B_{2},B_{3},B_{4}$と4段階に分けた.結果は次の通りであった.飲酒と喫煙は関係があるか,有意水準5%で検定しよう.

  $B_{1}$ $B_{2}$ $B_{3}$ $B_{4}$  
$A_{1}$ 39 54 49 17 159  
$A_{2}$ 27 43 40 9 119  
$A_{3}$ 14 23 15 20 72  
80 120 104 46 350