線形回帰

Developers's blog

2019.07.17 富田浩世
線形回帰

線形回帰とは

 線形回帰とは、ある変数xが与えられたとき、それと相関関係のあるyの値を説明・予測することである。統計分析の中でも基本的かつよく使われる分野である。  線形回帰は、  y=ax+b のようにある変数xによってただ1つのyの値が定まる。このとき、xを 説明変数、yを 目的変数という。今回は説明変数が1つなので、 単回帰分析といい、説明関数が2つのときは 重回帰分析という。  例えば、xを年齢、yを年収とすると、ある年齢のときに年収がいくらか、年齢が上がれば年収はどれだけ上がるのかということが、線形回帰分析によって「何円上がる/下がる」と定量的に示すことができる。

線形回帰モデルについて

 回帰直線とは以下のような直線(赤線部分)である。それによって実際にデータの傾向が見える化され、データから情報を引き出しやすくなる。

image

 線形回帰モデルは、目的変数Yと説明変数Xi(i = 1, ..., p)、切片β0、観測誤差εを用いて次のように示される。βi(i=1,...,p)は各々の説明変数の係数であり、回帰係数という。

Y = β0 + X1β1 + ⋯ + Xpβp + ε (目的変数=切片+説明変数1×回帰係数1+...+説明変数p×回帰係数p+観測誤差)

 上の図の回帰直線は単回帰(説明変数が1つ)の場合であるから次のように示される。  y=a+bx+ε (aは切片、bは回帰係数、εは観測誤差)  a,bはパラメータである。

最小二乗法について

 さて、線形回帰モデルにおいて、回帰直線はどのように引かれるのか。(どのようにパラメータの値を求めればよいのか。)そこで登場するのがOLS(最小二乗法)である。

image

 このeは、ある適当に引いてみた直線式と実際の観測値との誤差である。この誤差を残差と呼ぶ。OLS(最小二乗法)では各点における残差の和が最小となるようにパラメータを求め、生まれた残差ができるだけ小さくなるような直線ができるようにパラメータを調節していく。

直線y=ax+b の傾き、切片のパラメータを(a,b)とすると、i番目のデータについての残差eiは、 ei = Yi − aXi − b となる。しかし、このままだと残差がプラスのときもあればマイナスのときもあり扱いにくいため、2乗する。  残差を2乗したものの和は、

image (※1)

 OLSでは、残差二乗和が最も小さくなるようなパラメータ(a,b)を求めていくことを目的としている。このような残差二乗和を求めるために、式(※1)をaとbでそれぞれ偏微分した値が0になることを利用する。 (※1)から

image(※2)

image

(imageの前の係数imageが二乗なので必ず正の数となるため、下に凸のグラフとなる)  残差二乗和を最小にするには、(※2)をaについて微分した値が0になればよい。つまり、上のグラフの傾きが0となる点のaを見つけ出せばよいのである。

式をaについて微分して、それが0になるから、 image となる。

 また、bについてもaと同じように式変形をし、傾きが0になるような式を作ると、 image となる。  これより、次のような連立方程式が成り立つ。

image (※3)

image (※4)

この連立方程式を解いて係数aとbを求めていく。 (※4)からbについての式にしていくと、

image

 ここで、xとyのすべてのデータの平均値を、それぞれimageimageとすれば、

image

となる。 これを使ってbの式を書き直すと、 image

このbの式を、連立方程式の式(※3)に代入しaについての式にすると、

image

となる。 ここで、分母と分子のimageimageを変形していく。

image (※5)

image (※6)

 式(※5)(※6)をaの式に代入すると、

image

『最小二乗法によってデータの回帰直線を求める方法』 

回帰直線imageについて、

imageつまりimage

image

お問い合わせはこちらから