相関表,回帰直線

相関表

ある場所で1時間おきに二酸化硫黄と二酸化窒素の濃度を測定しました.このとき,二酸化硫黄と二酸化窒素の濃度の間にはどんな関係があるのか調べるために準備をします.

ある時刻での二酸化硫黄の濃度を$ x_{i}$,二酸化窒素の濃度を$ y_{i}$とし,$ x$軸に二酸化硫黄の濃度を$ y$軸に二酸化窒素の濃度をとって,座標 $ (x_{i},y_{i})$を持つ点を図示したものを相関図(correration diagram)といいます.

$ x_{i}$が増加するとき,$ y_{i}$も増加する傾向があるとき,$ x_{i}$$ y_{i}$正の相関(positive correration)があるといいます.これに反し,$ x_{i}$が増加するとき,$ y_{i}$が減少する傾向があるとき,$ x_{i}$$ y_{i}$負の相関(negative correration)があるといいます.

\includegraphics[width=10cm]{STATFIG/Fig1-3-1.eps}

相関表

相関図ではデータの数が非常に多い場合には,その図示が困難となる場合があります.そのような場合には,2つの変量を同時に考えた度数分布表として表わすと便利です.このような表を相関表といいます.

回帰直線

二酸化硫黄と二酸化窒素の関係のように,変量$ x$の値 $ x_{1},x_{2},\ldots,x_{n}$に,変量$ y$の値 $ y_{1}, y_{2}, \ldots, y_{n}$がそれぞれ対応していると仮定します.このとき,平面上の$ n$個の点:

$\displaystyle (x_{1},y_{1}),(x_{2},y_{2}),\ldots,(x_{n},y_{n}) $

に対して,$ y$軸方向の距離が,ある意味で最も近い直線(回帰直線(linear regression)):

$\displaystyle y = ax + b $

を求めることを考えます,

もし回帰直線が求められていれば,$ x_{i}$に対する$ y$の値(予測値 $ \hat {y}_{i}$)は

$\displaystyle \hat{y}_{i} = ax_{i} + b $

となります.ところが$ x_{i}$に対する実際の値(観測値)は$ y_{i}$です.そこでこの2つの値の差 $ y_{i} - \hat{y}_{i}$を予測誤差といい$ d_{i}$で表わします.

$\displaystyle d_{i} = y_{i} - y_{i} = y_{i} - ax_{i} - b $

ここで,

$\displaystyle \sum_{i=1}^{n}d_{i}^2 = \sum_{i=1}^{n}(y_{i} - ax_{i} - b)^2$

を最小にするような$ a,b$の値を定め,最適合直線を求める方法を最小2乗法(method of least square)といいます.

では,どうすれば $ \sum_{i=1}^{n}(y_{i} - ax_{i} - b)^2$を最小にする$ a,b$を求めることができるでしょうか.ここで,$ a,b$の値が変化することにより, $ \sum_{i=1}^{n}(y_{i} - ax_{i} - b)^2$の値が変化するので,

$\displaystyle F(a,b) = \sum_{i=1}^{n}(y_{i} - ax_{i} - b)^2$

とおくことにします.ここで,微分積分学の授業で学んだ微分可能な関数$ y = f(x)$が極値をとる点では何が起きているかを思い出すと, $ y' = f'(x) = 0$となります.このことを,$ a$$ b$という変数に対して行うと,
$\displaystyle \frac{\partial F}{\partial a}$ $\displaystyle =$ $\displaystyle \sum_{i=1}^{n}[2(y_{i} - ax_{i} - b)(-x_{i})] = -2\sum_{i=1}^{n}(y_{i} - ax_{i}-b)x_{i}$  
$\displaystyle \frac{\partial F}{\partial b}$ $\displaystyle =$ $\displaystyle \sum_{i=1}^{n}[2(y_{i} - ax_{i} - b)(-1)] = -2\sum_{i=1}^{n}(y_{i} - ax_{i}-b)$  

この式を書き直すと正規方程式
$\displaystyle \sum_{i=1}^{n}x_{i}y_{i} - a\sum_{i=1}^{n}x_{i}^2-b\sum_{i=1}^{n}x_{i}$ $\displaystyle =$ 0  
$\displaystyle \sum_{i=1}^{n}y_{i} - a\sum_{i=1}^{n}x_{i} - bn$ $\displaystyle =$ 0  

を得ます.ここで, $ \overline{x} = \frac{\sum_{i=1}^{x_{i}}}{n}, \overline{y} = \frac{\sum_{i=1}^{y_{i}}}{n}$であることに注意すると,上の2式は次のように書きなおせます.
$\displaystyle \sum_{i=1}^{n}x_{i}y_{i} - a\sum_{i=1}^{n}x_{i}^2-bn\overline{x}$ $\displaystyle =$ 0  
$\displaystyle n\overline{y} - an\overline{x} - bn$ $\displaystyle =$ 0  

第2式から, $ \overline{y} - a\overline{x} - b = 0$となるので,これを第1式に代入すると,

$\displaystyle \sum_{i=1}^{n}x_{i}y_{i} - a\sum_{i=1}^{n}x_{i}^2-(\overline{y} - a\overline{x})n\overline{x} = 0$

$\displaystyle \sum_{i=1}^{n}x_{i}y_{i} - n\overline{x}\overline{y} = a\left(\sum_{i=1}^{n}x_{i}^2 - n\overline{x}^2\right)$

となります.ここで,両辺を$ n$で割ると,

$\displaystyle \frac{1}{n}\sum_{i=1}^{n}x_{i}y_{i} - \overline{x}\overline{y} = a\left(\frac{1}{n}\sum_{i=1}^{n}x_{i}^2 - \overline{x}^2\right)$

となり,左辺は共分散$ s_{xy}$,右辺はaかける$ x$の分散$ as_{x}^2$です.したがって,

$\displaystyle s_{xy} = as_{x}^2$

となり,求める$ a$

$\displaystyle a = \frac{s_{xy}}{as_{x}^2}$

となります.最後に, $ \overline{y} - a\overline{x} - b = 0$より,$ b$を求めると,

$\displaystyle b = \overline{y} - a\overline{x} = \overline{y} - \frac{s_{xy}}{as_{x}^2}\overline{x}$

これより,$ x$上の$ y$の回帰直線

$\displaystyle y - \overline y = \frac{s_{xy}}{s_{x}^2}(x - \overline x) $

が求まります. ここまでを整理すると,

$ n$個のデータ $ \{(x_{i},y_{i}) (i = 1,2,\ldots,n)$について,$ y$$ x$への回帰係数は

$\displaystyle a_{yx} = \frac{s_{xy}}{s_{x}^2} = \frac{nT_{xy} - T_{x}T_{y}}{n\sum x_{i}^2 - T_{x}^2}$

$ y$$ x$への回帰直線$ l$の方程式は

$\displaystyle y - \overline{y} = a_{xx}(x - \overline{x})$

回帰直線を用いることができるのはデータが$ x$,$ y$の時だけではありません.例えば,自動車の部品メーカーでは,あるセラミック部品の寸法$ y$を精度よく予測する課題に取り組むことになった.$ y$を予測するための変数として,次の3つの変数が考えられている.

$\displaystyle x_{1}$ $\displaystyle :$ $\displaystyle 注入速度$  
$\displaystyle x_{2}$ $\displaystyle :$ $\displaystyle 材料の粒度$  
$\displaystyle x_{3}$ $\displaystyle :$ $\displaystyle 水分量$  

この問題では,$ y$を予測するために3つの変数 $ x_{1},x_{2},x_{3}$を用いることになる.このとき,$ y$目的変数 $ x_{1},x_{2},x_{3}$説明変数といいます.この場合,回帰直線は

$\displaystyle y = b_{0} + b_{1}x_{1} + b_{2}x_{2} + b_{3}x_{3}$

の形をとり,この式を求めることを重回帰分析といいます.

統計学演習問題 3


表: 二酸化硫黄と二酸化窒素の濃度
時刻 二酸化硫黄 二酸化窒素 時刻 二酸化硫黄 二酸化窒素
  x y   x y
1 23 43 13 38 21
2 21 28 14 51 37
3 18 17 15 109 65
4 17 16 16 90 65
5 17 16 17 78 50
6 15 10 18 75 58
7 13 5 19 34 42
8 14 5 20 33 52
9 16 8 21 29 55
10 17 13 22 31 55
11 17 11 23 25 55
12 35 28 24 25 51