読者です 読者をやめる 読者になる 読者になる

相関係数と線形回帰 その1

機械学習

どうせなら超基本的な話からしようと思うので、確率とか高校以来触ってないよなんて人もご安心ください。数式も極力使っていません。今回の目標は相関係数とは何かを説明することです。

まず、正規分布の話をします。

f:id:futsaludy:20160610155523p:plain

多分どこかで見覚えがあると思います。正規分布について詳しく知りたい方はググればいくらでも出てくるので、ここでは説明しません。

正規分布のグラフは、横軸をXとしたときのXの確率を表しているもの、というのはちょっと間違いです。例えばX=0となる確率は、実は0になります。正規分布は数学的には「確率密度関数」と言って、Xの相対的な確率を表しています。グラフの縦軸の値は相対的な確率なので、これはいわゆる確率ではありません。縦軸の値はあまり深く考えず、単純に値が大きいほど確率は高くなると考えておけばいいと思います。

さて、ここでXとYの二つの確率変数(と呼びます)が正規分布に従っているとします。まず、XとYが独立の場合、同時密度関数は以下のscatter plotのようになっています。

f:id:futsaludy:20160610162207p:plain

ここで横軸はX、縦軸はY、点の密度が大きいほど確率は高いと考えてみてください。ご覧の通り、XとYが独立な時、確率密度は中心から放射的に広がっています。

ここで、赤い線上の確率密度(点の密度)を考えてみてください。Y=0の近くほど密度が大きくなっていて、正規分布っぽくなっています。この赤い断面は「X=0の時のYの確率密度」を表しています。

一方で、青い線上の確率密度を考えてみてください。赤い線より密度は薄いですが、これも正規分布っぽくなっているのがわかると思います。これは「X=−1の時のYの密度関数」を表しています。

さて、赤い断面と青い断面は密度の濃度の差こそあれ、中心が0で分散も等しい正規分布になっています。このように、Xの値が違う時にYの密度関数が同じになることをXとYが独立であるといいます。

とはいえ、この独立の定義は分かりにくいです。どうしてこんな分かりにくい独立の定義をしたかというと、独立でない場合に共分散と相関係数の説明がしやすくなるためです。

XとYが独立でない場合、密度関数は以下のようになります。

 

f:id:futsaludy:20160610163919p:plain

こうしてみると赤い断面も青い断面も正規分布にはなっていますが、青い断面の中心は赤い断面の中心よりちょっと下に下がっています。なので、Xの値が違う時にYの密度関数が違っています。これがXとYが非独立である場合の特徴です。

それでは、XとYの共分散とは一体何を指しているのでしょうか?一言で言うと、「XとYが同時に大きくなったり小さくなったりするかどうか」の指標です。最初のscatter plotで言えばXが大きくなっても(右にずれても)Yは大きくも小さくもなりません。なので共分散は0です。

2つ目のscatter plotでは、Xが大きくなるほどYは大きくなっています。なので共分散は正です。

共分散と似た概念に、相関係数というのが存在します。これは、「XとYが線形的に同時に大きくなったり小さくなったりしているかどうか」の指標です。2つ目のscatter plotは明らかに直線的な関係が見えるので、相関係数は比較的大きな値になります。

 

最後に、線形回帰の話をしましょう。

線形回帰とは、上のようなscatter plotに対して、Y = aX という直線を当てはめることです。(本当はY = aX + b としても良いのですが、今回は簡単のためbは考えません。)

この時、Y = aX のa は、直線とscatter plotの点の間の二乗誤差を最小にするように設計します。

この二乗誤差が小さいほど、「線形回帰の当てはまりが良い」と言います。

それでは、相関係数が大きいほど、線形回帰の当てはまりが良いことを、簡単な例で証明してみましょう。(続く)