標本の散布度,相関関係

散布度(dispersion)

5点満点のテストを行なったところ次のような度数分布表を得ました.

階級 $ f_{i}$ $ f_{i}/n$ $ F_{i}$ $ F_{i}/n$
0 2 0.02 2 0.02
1 13 0.13 15 0.15
2 33 0.33 48 0.48
3 35 0.35 83 0.83
4 16 0.16 99 0.99
5 1 0.01 100 1.00
また,代表値として次の表を得ました.

標本数 $ T$ $ \bar{x}$ $ \sum f_{i}x_{i}^2$ $ s^2$ $ s$
100 253 2.53 741 1.01 1.00

この表の$ s^2$$ s$について説明します.

散布度 : データが平均のまわりに集中して分布するか,平均のまわりから散らばって分布するかの程度を表わすのが,散布度です.

度数分布表において,各階級数 $ x_{i}  (i = 1,2,\ldots,k)$に対する度数を$ f_{i}$とするとき,変量$ x$の平均 $ \overline x$からの偏差の平方の平均:


$\displaystyle s^2$ $\displaystyle =$ $\displaystyle \frac{(x_{1} - \overline x)^2 f_{1} + (x_{2} - \overline x)^2 f_{2} + \cdots + (x_{k} - \overline x)^2 f_{k}}{n}$  
  $\displaystyle =$ $\displaystyle \frac{1}{n} \sum_{i=1}^{k} (x_{i} - \overline x)^2 f_{i}  $  

標本分散(variance)といいます.また,標本分散の正の平方根:

$\displaystyle s = \sqrt{s^2} = \sqrt{\frac{1}{n} \sum_{i=1}^{k} (x_{i} - \overline x)^2 f_{i}} $

標準偏差(standard deviation)といいます.テキストによっては,標本分散の定義が
$\displaystyle s^2$ $\displaystyle =$ $\displaystyle \frac{(x_{1} - \overline x)^2 f_{1} + (x_{2} - \overline x)^2 f_{2} + \cdots + (x_{k} - \overline x)^2 f_{k}}{n-1}$  
  $\displaystyle =$ $\displaystyle \frac{1}{n-1} \sum_{i=1}^{k} (x_{i} - \overline x)^2 f_{i}   $  

となっています.この2つの式の違いは,前者は観測対象の全ての観測値が求められた場合に用います.後者はそれ以外のときに用います.

実際の問題では階級に分ける前にすべてのデータを打ち込むので,変量$ x$に関する$ n$個のデータ $ x_{1},x_{2},\ldots,x_{n}$が与えられたとき,分散は次の式で与えられます.

$\displaystyle s^2$ $\displaystyle =$ $\displaystyle \frac{(x_{1} - \overline x)^2 + (x_{2} - \overline x)^2 + \cdots + (x_{k} - \overline x)^2 }{n}$  
  $\displaystyle =$ $\displaystyle \frac{1}{n} \sum_{i=1}^{n} (x_{i} - \overline x)^2   $  

ここで分散を簡単に計算する実用的な方法として次の簡便計算法があります.

$\displaystyle s^2 = \frac{1}{n}\sum_{i=1}^{n}x_{i}^2 - (\overline x)^2 $

例題 1..2  

上の式を導きなさい.

解答

$\displaystyle s^2$ $\displaystyle =$ $\displaystyle \frac{1}{n} \sum_{i=1}^{n} (x_{i} - \overline x)^2   $  
  $\displaystyle =$ $\displaystyle \frac{1}{n} \sum_{i=1}^{n} (x_{i}^2 - 2x_{i}\overline x + {\overline x}^2)$  
  $\displaystyle =$ $\displaystyle \frac{1}{n} \left(\sum_{i=1}^{n} x_{i}^2 - 2\overline x \sum_{i=1}^{n}x_{i} + \sum_{i=1}^{n}{\overline x}^2\right)$  
  $\displaystyle =$ $\displaystyle \frac{1}{n} \left(\sum_{i=1}^{n} x_{i}^2\right) - 2\overline x \overline x + {\overline x}^2$  
  $\displaystyle =$ $\displaystyle \frac{1}{n} \sum_{i=1}^{n} x_{i}^2 - {\overline x}^2$  

標準偏差は平均値のまわりのデータの散らばりの大きさを表す量ですが,標準偏差が10点であるといっても平均点が30点のときと,60点のときでは違いがあることが分かります.この違いを表す量として,変動係数とよばれるものがあります.変動係数はデータの平均値 $ \overline x$で標準偏差$ s$を割った割合 $ \frac{s}{\overline x}$で表します.したがって,変動係数は平均値に対する相対的な散らばりの大きさを表します.

例題 1..3  

あるクラスの英語の試験の平均点$ \bar{x}$$ 67$で標準偏差$ s_{x}$$ 8.5$.また,数学の試験の平均点$ \bar{y}$$ 53$で標準偏差$ s_{y}$$ 12.6$でした.このクラスのA君の成績は英語が75点で数学が68点でした.A君のクラスでの成績は,英語と数学のどちらの順位が上でしょうか.

解答 2つの異なるものを比較するには,共に同じ土俵にもってこなくてはなりません.その方法として標準化とよばれるものがあります.

$\displaystyle z_{i} = \frac{x_{i} - \bar{x}}{s}$

とおくと,$ \{z_{i}\}$の平均は0に分散$ s^2$は1になります.そこで,英語の成績と数学の成績の標準化を行うと,
$\displaystyle z_{\rm english}$ $\displaystyle =$ $\displaystyle \frac{75 - 67}{8.5} = 0.94$  
$\displaystyle z_{\rm math}$ $\displaystyle =$ $\displaystyle \frac{68-53}{12.6} = 1.19$  

となり,A君のクラスでの成績は数学の方が英語より上であるといえます.

相関関係

2次元データの分布の特徴は2つの変数の平均値と分散だけでは表わすことが困難です.そこで$ (x,y)$$ n$組のデータを

$\displaystyle (x_{1},y_{1}),(x_{2},y_{2}),\cdots,(x_{n},y_{n})$

とすると,2つの変数の間の関係を調べるものに共分散(covariance)相関係数(correration coefficient)よばれるものがあり,次のように定義されます.

$\displaystyle s_{xy} = \frac{1}{n} \sum_{i=1}^{n}(x_{i} - \overline x)(y_{i} - \overline y) = \frac{1}{n} \sum_{i=1}^{n} x_{i}y_{i} - \overline x \overline y $

$\displaystyle r = \frac{s_{xy}}{{s_{x}}{s_{y}}} $

ここで$ s_{x}$は変量$ x$の標準偏差,$ s_{y}$は変量$ y$の標準偏差を表わします.

確認問題

1.
相対累積度数が$ p/100$であるような標本値$ x$pパーセント点といいます.特に,25%点$ Q_{1}$第1四分位数, 50%点$ Q_{2}$を第2四分位数, 75%点$ Q_{3}$を第3四分位数といいます.次の20個のデータの第1四分位数を求めよ.

67 54 54 66 56 65 46 35 45 45
83 72 54 58 47 60 43 82 76 92

統計学演習問題 2

1.次のデータについて,共分散,相関係数を求めよう.


表: 二酸化硫黄と二酸化窒素の濃度
時刻 二酸化硫黄 二酸化窒素 時刻 二酸化硫黄 二酸化窒素
  x y   x y
1 23 43 13 38 21
2 21 28 14 51 37
3 18 17 15 109 65
4 17 16 16 90 65
5 17 16 17 78 50
6 15 10 18 75 58
7 13 5 19 34 42
8 14 5 20 33 52
9 16 8 21 29 55
10 17 13 22 31 55
11 17 11 23 25 55
12 35 28 24 25 51