信頼区間(Confidence intervals)

区間推定(interval estimation)

母数$\theta$がある区間 $[\theta_{1},\theta_{2}]$に入るだろうと推定するのが区間推定です.詳しくいうと, 母数$\theta$を推定するために,母集団から無作為に抽出された標本から2つの統計値 $\theta_{1}, \theta_{2}$ を定める.このとき,あらかじめ指定された小さな確率 $\alpha \ (0 < \alpha < 1)$に対して,常に

$\displaystyle P_{r}(\theta_{1} < \theta < \theta_{2}) = 1 - \alpha $

が満たされるとき,区間 $(\theta_{1}, \theta_{2})$$\theta$信頼区間(Confidence interval) $\theta_{1}, \theta_{2}$信頼限界(Confidence limit) $100(1 - \alpha)\% $信頼係数(Confidence coefficient)または信頼度(Confidence level)といいます.信頼区間 $[\theta_{1},\theta_{2}]$を求めることを区間推定(Interval estimation)といいます.

$\theta$は一定値ですが,区間 $[\theta_{1},\theta_{2}]$は標本によっていろいろ変わり,この区間に$\theta$が入る確率が $1 - \alpha$です.

区間推定法(interval estimation method)

母集団が正規分布 $N(\mu,\sigma^2)$に従い,母分散$\sigma^2$が分っているとします.このとき,母平均$\mu$はどの範囲にあるかを,どのくらい信頼できるかを考えて表わしてみましょう.

準備

標本 $X_{1},X_{2},\ldots,X_{n}$が, $X_{i} \sim N(\mu, \sigma^2)$のとき,

$\displaystyle E(\overline X) = \mu, \ V(\overline X) = \frac{\sigma^2}{n} $

より

$\displaystyle \overline X \sim N(\mu, \frac{\sigma^2}{n}) $

と表せます.また,

$\displaystyle S^2 = \frac{1}{n}\sum_{i=1}^{n}(X_{i} - \overline X)^2 \ $   の期待値$\displaystyle \ E(S^2) = \frac{n-1}{n}\sigma^2 $

より

$\displaystyle {S'}^2 = \frac{n}{n-1}S^2 \ $   の期待値$\displaystyle \ E({S'}^2) = \sigma^2 $

と表せます.

母平均$\mu$の区間推定($\sigma^2$既知)

ここでは $\alpha = 0.05$つまり,95%信頼区間を推定します.まず,

$\displaystyle \overline X \sim N(\mu, \frac{\sigma^2}{n}) $

より標準化を行なうと,

$\displaystyle Z = \frac{\bar{X} - \mu}{\sqrt{\sigma^{2}/n}} \sim N(0,1) $

これより,

$\displaystyle P_{r}\left(\vert Z\vert \leq z_{\frac{\alpha}{2}}\right) = 1 - \alpha = 0.95$

ここで, $z_{\frac{\alpha}{2}}$は,

$\displaystyle P_{r}(Z \geq z_{\frac{\alpha}{2}}) = \frac{\alpha}{2}$

を満たす点です.このとき, $z_{\frac{\alpha}{2}}$を標準正規分布表の両側確率で求めると, $\alpha = 0.05$のとき, $z_{\frac{\alpha}{2}}$

$\displaystyle z_{\frac{\alpha}{2}} = 1.96 $

となります.よって求める信頼区間は次の不等式を満たします.

$\displaystyle \vert Z\vert = \vert\frac{\bar{X} - \mu}{\sqrt{\sigma^{2}/n}}\vert \leq z_{\frac{\alpha}{2}} $

この不等式を$\mu$について解くと

$\displaystyle \overline X - z_{\frac{\alpha}{2}}\sqrt{\frac{\sigma^2}{n}} \leq \mu \leq \overline X + z_{\frac{\alpha}{2}}\sqrt{\frac{\sigma^2}{n}} $

を得ます. これが母平均$\mu$の信頼区間となります.
図 3.1: 正規分布
Image Fig4-2

例題 3..6  

標本 $28,24,31,27,22$が与えられたとして,標準偏差が$2.5$である正規母集団の平均に対する$95\%$信頼区間を求めよう.

解答 標準偏差が$2.5$より,母分散 $\sigma^{2} = 6.25$は既知である.この母集団から無作為に選んだ標本$X_{i}$ $X_{i} \sim N(\mu, 6.25)$の正規分布に従っていると考えることができる.したがって,

$\displaystyle \bar{X} \sim N(\mu, \sigma^{2}/5)$

となる.ここで,$\bar{X}$を求めると,

$\displaystyle \bar{X} = \frac{1}{4}[145.3 + 145.1 + 145.4 + 146.2] = \frac{132}{4} = 145.25$

標準化を行なうと,

$\displaystyle Z = \frac{\bar{X} - \mu}{\sqrt{\sigma^{2}/4}} \sim N(0,1)$

となる. 95%信頼区間より, $P_{r}(\vert Z\vert \leq z_{\frac{\alpha}{2}}) = 0.95$. また, $z_{\frac{0.05}{2}} = 1.96$. したがって,

$\displaystyle \bar{X} - z_{\frac{\alpha}{2}}\sqrt{\frac{\sigma^{2}}{5}} \leq \mu \leq \bar{X} + z_{\frac{\alpha}{2}}\sqrt{\frac{\sigma^{2}}{5}}$

$\displaystyle 26.4 - 1.96\sqrt{6.25/5} \leq \mu \leq 26.4 + 1.96\sqrt{6.25/5}$

$\displaystyle 24.21 \leq \mu \leq 28.59$

次に,母集団が正規分布に従うことは分かっているが母分散 $\sigma^{2}$が不明である場合を考えます.

平均値の区間推定($\sigma^2$未知)

ここでは $\alpha = 0.05$つまり,95%信頼区間を推定します. この場合,2つの母数 $\mu, \sigma^{2}$が必要となりますが, $\sigma^{2}$が未知なので, $\sigma^{2}$を推定する不偏分散${S'}^{2}$ $\sigma^{2}$の代わりに用います.すると,母分散に無関係に

$\displaystyle T = \frac{\bar{X} - \mu}{\sqrt{{S'}^{2}/n}}$

は,自由度$n-1$$t$分布に従うことが知られています.これより,

$\displaystyle P_{r}(\vert T\vert \leq t_{n-1,\alpha/2})) = 1 - \alpha$

となります.ここで, $t_{n-1,\alpha/2}$は,

$\displaystyle P_{r}(T \geq t_{n-1,\alpha/2}) = \frac{\alpha}{2}$

を満たす点である.このとき, $t_{n-1,\alpha/2}$$t$分布表の両側確率で求めると, $\alpha = 0.05$$n = 10$のとき, $t_{9,0.05/2}$

$\displaystyle t_{9,0.05/2} = 2.26 $

よって求める信頼区間は次の不等式を満たします.

$\displaystyle \vert\frac{\bar{X} - \mu}{\sqrt{{S'}^{2}/n}}\vert \leq t_{n-1,\alpha/2} $

この不等式を$\mu$について解くと

$\displaystyle \overline X - t_{n-1,\alpha/2}\sqrt{\frac{{S'}^2}{n}} \leq \mu \leq \overline X + t_{n-1,\alpha/2}\sqrt{\frac{{S'}^{2}}{n}} $

を得ます.

統計学演習問題 6

1 ある水域の一定区間における水質BOD(ppm)はほぼ正規分布に従い,その母分散は $\sigma^2 = 6.25(ppm)^2$であることがわかっている.いま$n = 15$個の標本をとり,標本平均 $\bar X = 7.2ppm$を得た.このとき信頼度$95\%$で,この水質の母平均の区間推定をせよ.

2 標本 $145.3, 145.1, 145.4, 146.2$が与えられたとして,母平均が$146$で標準偏差が$2.5$ある正規母集団の平均に対する$95\%$信頼区間を求めよう.

3 標本 $145.3, 145.1, 145.4, 146.2$が与えられたとして,母平均が$146$である正規母集団の平均に対する$95\%$信頼区間を求めよう.