読者です 読者をやめる 読者になる 読者になる

相関係数と線形回帰 その2

機械学習

今回は相関係数が高いほど、線形回帰の当てはまりがよくなるという話をします。

まずはじめに、線形回帰ができると何が嬉しいの?という話をします。

もしもY=aXという関係式を求められたなら、これはXが分かった時にYの値を予測できるようになる、ということです。

線形回帰の当てはまりの良さが良いほど、一般的には予測の精度が高くなります(必ずとは限りません、あくまで一般的にです)。

 

それでは、今回は簡単な数学を使って証明を行ってみましょう。

まず、データXとYが長さNのベクトルで与えられているとします。

これらはそれぞれ平均が0、ノルムが1になるように前処理してあると考えましょう。

この時、ρは相関係数になります。

(この場合はコサイン類似度でもあります。平均が0の場合、共分散と相関係数とコサイン類似度は定数倍の違いしかありません)

これはちょっと説明を要する気がしますが、練習だと思って自分で考えてみてください。

f:id:futsaludy:20160610220456p:plain

それでは、Yに対してXで線形回帰をしてみます。

細かい説明は端折りますが、この時二乗誤差を最小にするようなyの線形推定値は

f:id:futsaludy:20160610220519p:plain

となります(線形回帰の一番最初の授業で習うことなので、これも説明しません)。なので、二乗誤差の当てはまり具合は

f:id:futsaludy:20160610220525p:plain

となるので、相関係数が1の時誤差は0となり(完璧に線形回帰)でき、相関係数が小さくなるほど当てはまりが悪くなることがわかります。