統計量と標本分布(Satatistics and sample distribution)

日本の小学6年生の身長を調査するとします.このとき,対象全体についての調査を全数調査(complete enumeration)といいます.しかし,全数調査は労力や経費の点から不可能なことがよくあります.そこで,全数調査に代わるものとして,対象全体から何らかの方法で一部の対象を選び出し調査を行い,それにより対象全体についての推測をする方法を標本調査(sampling)といいます.このとき,調査対象となる小学6年生の身長の集まりを母集団(population)といいます.また,調査のために選び出された6年生の身長の集まりを標本(sample)といいます.

標本抽出

日本の小学6年生を$\Pi$とし,小学6年生の各人の身長を$X$とすると,母集団は$(\Pi,X)$と表せます.この母集団から取り出した$n$個の要素の組 $(x_{1},x_{2},\ldots,x_{n})$大きさ$n$の標本といいます.このとき,個々の$x_{i}$$X$と同じ分布をする確率変数$X_{i}$が実現した数値でなければなりません.そこで,確率変数の組 $(X_{1},X_{2},\ldots,X_{n})$大きさ$n$の確率標本変数(sample random variable)といいます. 確率標本変数 $(X_{1},X_{2},\ldots,X_{n})$に要求される数学的条件は,各$X_{i}$が母集団$(\Pi,X)$$X$と同じ分布をする独立な確率変数であることです.では,実際に標本を選ぶときには,どのようにしたらよいのでしょうか.それには,個々の標本が全く偶然に,つまり同じ確率で現れるように選ばれる必要があります.例えば,6人から1人を選ぶには,正しいサイコロを振って決めるとか,52人から2人を選ぶとき,トランプのカードに各人を対応させて,よく切ったあと2枚を選ぶなどがあります.このようにして,標本を選ぶことを無作為抽出またはランダム抽出(random sampling)といいます.そして,このようにして選ばれた標本を確率標本(probability sample)といいます.

この母集団から無作為に抽出された標本を

$\displaystyle X_{1},X_{2},\ldots,X_{n}$

とします.標本確率変数 $X_{i}(i=1,2,\ldots,n)$は互いに独立に母集団分布に従います.よって,

$\displaystyle E(X_{i}) = \mu,\ V(X_{i}) = \sigma^2$

となります.ここで,標本 $X_{1},X_{2},\ldots,X_{n}$を用いて母平均と母分散を推定することを考えます.まず,素朴に考えて, $X_{1},X_{2},\ldots,X_{n}$$n$個のデータの集まりとして,その平均と分散を求めます.すると,
$\displaystyle 標本平均$   $\displaystyle \overline{X} = \frac{1}{n}\sum_{i=1}^{n}X_{i}$  
$\displaystyle 標本分散$   $\displaystyle S^2 = \frac{1}{n}\sum_{i=1}^{n}(X_{i} - \overline{X})^2$  

を得ます.このとき, $\overline{X}$は母平均$\mu$を,$S^2$は母分散$\sigma^2$を推測するのに,適当な統計量かという疑問がでます.

例題 3..1  

標本平均の分散と標準偏差を求めよう.

解答

$\displaystyle V(\overline{X})$ $\displaystyle =$ $\displaystyle E(\overline{X}^2) - E(\overline{X})^2$  
  $\displaystyle =$ $\displaystyle E(\frac{1}{n}(\sum_{i=1}^{n}X_{i}^2)) - \mu^2$  
  $\displaystyle =$ $\displaystyle \frac{1}{n^2}E(X_{1}^2 + \cdots + X_{n}^2 + 2(X_{1}X_{2} + \cdots + X_{n-1}X_{n})) - \mu^2$  
  $\displaystyle =$ $\displaystyle \frac{1}{n^2}\left(\sum_{i=1}^{n}E(X_{i}^2) + 2\sum_{1 \leq i,j \leq n}E(X_{i}X_{j})\right) - \mu^2$  
  $\displaystyle =$ $\displaystyle \frac{1}{n^2}\sum_{i=1}^{n}(\sigma^2 + \mu^2) + \frac{2}{n^2}\binom{n}{2}\mu^2 - \mu^2 = \frac{\sigma^2}{n}$  

したがって,標本平均の標準偏差は $\frac{\sigma}{\sqrt{n}}$

定理 3..1  

[チェビシェフの定理]

確率変数$X$の平均値を$\mu$,標準偏差を$\sigma$とすると,定数 $\lambda > 1$に対して

$\displaystyle P(\vert X - \mu\vert \geq \lambda \sigma) \geq \frac{1}{\lambda}$

または

$\displaystyle P(\vert X - \mu\vert < \lambda \sigma) \geq 1 - \frac{1}{\lambda^2}$

例題 3..2  

母平均$\mu$, 母分散$\sigma^2$の母集団$(\Pi,X)$がある.ここから抽出した大きさ$n$の標本平均を $\overline{X}$とする.いま $\overline{X}$$\mu$との差が標準偏差$\sigma$ $\frac{1}{5}$より小さい確率を$0.9$以上にしたい.$n$をいくらにとればよいか.

解答 題意を式で表すと

$\displaystyle P(\vert\overline{X} - \mu\vert < \frac{\sigma}{5}) \geq 0.9$

一方, $\overline{X}$の標準偏差は $\frac{\sigma}{\sqrt{n}}$であるから,チェビシェフの定理を用いると

$\displaystyle P(\vert\overline{X} - \mu\vert < \frac{\lambda \sigma}{\sqrt{n}}) \geq 1 - \frac{1}{\lambda^2}$

よって, $\frac{\lambda}{\sqrt{n}} = \frac{1}{5}$

$\displaystyle P(\vert\overline{X} - \mu\vert < \frac{\sigma}{5}) \geq 1 - \frac{25}{n} \geq 0.9$

とすればよい.これから, $n \geq 250$とすればよいことが分かる.

統計的推定(statistical estimation)

母集団から無作為に抽出された標本

$\displaystyle X_{1},X_{2},X_{3},\ldots,X_{n} $

から,標本平均

$\displaystyle \overline X = \frac{1}{n}[X_{1} + X_{2} + X_{3} + \cdots + X_{n}] $

標本分散

$\displaystyle S^2 = \frac{1}{n}[(X_{1} - \overline X)^2 + (X_{2} - \overline X)^2 + \cdots + (X_{n} - \overline X)^2 $

といった標本の統計量の値(統計値)を用いて,母集団の分布に含まれる母数(母平均,母分散)の値を推定することを統計的推定といいます.

点推定(point estimation)

点推定は母数を1個の数値で定めようとする方法のことです.全数調査ができれば,母集団の母数は簡単に求めることができます.しかし,大事なことは,全数調査ができないときに,標本を通して母数の情報を得ることです.

母数を$\theta$とし,これに対し大きさ$n$の標本変量 $\{x_{1},x_{2},\ldots,x_{n}\}$の統計量 $T(x_{1},x_{2},\ldots, x_{n})$を考えます.この関数に抽出された標本値 $(X_{1},X_{2},\ldots,X_{n})$を代入した値 $\hat{\theta} = T(X_{1},X_{2}, \ldots, X_{n})$でもって,$\theta$の値であると推定することを,$\theta$の点推定という.

不偏推定量(unbiased estimator)

ある推定値 $\hat{\theta} = T(X_{1},X_{2}, \ldots, X_{n})$について,

$\displaystyle E(\hat{\theta}) = E(T(X_{1},X_{2}, \ldots, X_{n})) = \theta$

のとき, $\hat{\theta}$$\theta$不偏推定量という.

母集団 $N(\mu, \sigma^{2})$において,次の統計量は不偏推定量である.

$\displaystyle \bar{X} = \frac{1}{n}\sum_{n=1}^{n}X_{i}, \ U^{2} = \frac{1}{n-1}\sum_{i=1}^{n}(X_{i} - \bar{X} )^{2}$

この意味で,$U^{2}$不偏分散という.

例題 3..3  

$\bar{X}$は不偏推定量であることを示そう.

$E(X+Y) = E(X) + E(Y)$より,

$\displaystyle nE(\bar{X}) = E(X_{1}) + E(X_{2}) + \cdots + E(X_{n}) = n\mu$

したがって, $E(\bar{X}) = \mu$.

しかし,母分散 $\sigma^{2}$を推定するには,不偏性とは異なる立場をとると,$U^{2}$よりも標本分散

$\displaystyle S^{2} = \frac{1}{n}\sum_{i=1}^{n}(X_{i} - \bar{X})^{2} = \frac{n-1}{n}U^{2}$

の方が良いこともあります.このようになる理由は,$n$を増やしても$U^2$$S^2$$\sigma^2$を中心とする狭い区間に入る確率がなかなか大きくならないことにあります.