相関表
ある場所で1時間おきに二酸化硫黄と二酸化窒素の濃度を測定しました.このとき,二酸化硫黄と二酸化窒素の濃度の間にはどんな関係があるのか調べるために準備をします.
ある時刻での二酸化硫黄の濃度を,二酸化窒素の濃度をとし,軸に二酸化硫黄の濃度を軸に二酸化窒素の濃度をとって,座標
を持つ点を図示したものを相関図(correration diagram)といいます.
が増加するとき,も増加する傾向があるとき,とは正の相関(positive correration)があるといいます.これに反し,が増加するとき,が減少する傾向があるとき,とは負の相関(negative correration)があるといいます.
相関表
相関図ではデータの数が非常に多い場合には,その図示が困難となる場合があります.そのような場合には,2つの変量を同時に考えた度数分布表として表わすと便利です.このような表を相関表といいます.
回帰直線
二酸化硫黄と二酸化窒素の関係のように,変量の値
に,変量の値
がそれぞれ対応していると仮定します.このとき,平面上の個の点:
に対して,軸方向の距離が,ある意味で最も近い直線(回帰直線(linear regression)):
を求めることを考えます,
もし回帰直線が求められていれば,に対するの値(予測値
)は
となります.ところがに対する実際の値(観測値)はです.そこでこの2つの値の差
を予測誤差といいで表わします.
ここで,
を最小にするようなの値を定め,最適合直線を求める方法を最小2乗法(method of least square)といいます.
では,どうすれば
を最小にするを求めることができるでしょうか.ここで,の値が変化することにより,
の値が変化するので,
とおくことにします.ここで,微分積分学の授業で学んだ微分可能な関数が極値をとる点では何が起きているかを思い出すと,
となります.このことを,とという変数に対して行うと,
この式を書き直すと正規方程式
を得ます.ここで,
であることに注意すると,上の2式は次のように書きなおせます.
第2式から,
となるので,これを第1式に代入すると,
となります.ここで,両辺をで割ると,
となり,左辺は共分散,右辺はaかけるの分散です.したがって,
となり,求めるは
となります.最後に,
より,を求めると,
これより,上のの回帰直線
が求まります.
ここまでを整理すると,
個のデータ
について,のへの回帰係数は
のへの回帰直線の方程式は
重回帰分析
回帰直線を用いることができるのはデータが,の時だけではありません.例えば,自動車の部品メーカーでは,あるセラミック部品の寸法を精度よく予測する課題に取り組むことになった.を予測するための変数として,次の3つの変数が考えられている.
この問題では,を予測するために3つの変数
を用いることになる.このとき,を目的変数,
を説明変数といいます.この場合,回帰直線は
の形をとり,この式を求めることを重回帰分析といいます.
1. 次のデータ から得られる相関表より回帰直線を求めよう.
表 1.4:
二酸化硫黄と二酸化窒素の濃度
時刻 |
二酸化硫黄 |
二酸化窒素 |
時刻 |
二酸化硫黄 |
二酸化窒素 |
|
x |
y |
|
x |
y |
1 |
23 |
43 |
13 |
38 |
21 |
2 |
21 |
28 |
14 |
51 |
37 |
3 |
18 |
17 |
15 |
109 |
65 |
4 |
17 |
16 |
16 |
90 |
65 |
5 |
17 |
16 |
17 |
78 |
50 |
6 |
15 |
10 |
18 |
75 |
58 |
7 |
13 |
5 |
19 |
34 |
42 |
8 |
14 |
5 |
20 |
33 |
52 |
9 |
16 |
8 |
21 |
29 |
55 |
10 |
17 |
13 |
22 |
31 |
55 |
11 |
17 |
11 |
23 |
25 |
55 |
12 |
35 |
28 |
24 |
25 |
51 |