「直交表の意味は?」の添付資料p.7に「共分散」が登場していました。相関係数の分子が(共分散)、分母が(x成分の標準偏差)✕(y成分の標準偏差)です。この共分散についてイメージしてみます。
資料はこちら → 共分散の意味
p.1 xが1〜7に対して群Aと群Bのyが左上の表の値をとっています。x、yA及びyBの平均値及び標準偏差を算出します。2つ目の表は、x、yA及びyB各々の値から各々の平均値を差し引いた値とそれらの合計値をデータの数6で割った「共分散」です。3つ目の表は、共分散を(x成分の標準偏差)✕(y成分の標準偏差)で割った「相関係数」です。 左上の表の値をプロットしたグラフをご覧ください。左の群Aは相関関係があり、右の群Bは相関関係がないことがわかりますね。左上の表を見れば気がつくと思いますが、実は、x、yA及びyBいずれも平均値及び標準偏差は同じ値なのです。つまり、相関係数の分母は群Aも群Bいずれも同じです。異なるのは共分散です。これが相関係数の違いに寄与していることがわかります。
p.2 共分散の分子は、xとyの平均値を原点とする四角形の面積の平均値を表しています。今回は6ポイントあるので6つの面積の和を6で除したものが共分散になります。第1象限(x>0、y>0)と第3象限(x<0、y<0)の面積は正値、第2象限(x<0、y>0)と第4象限(x>0、y<0)の面積は負値になります。第1と第3象限にポイントが分布している場合は、面積は正となり、相関係数の分子の共分散も正なので相関係数も正となります。第2と第4象限にポイントが分布している場合は、面積は負となり、相関係数の分子の共分散も負なので相関係数も負となります。第1〜第4象限にポイントが散在している場合は、面積がゼロに近づき、共分散もゼロそして相関係数もゼロに近づきます。つまり相関関係がないことを示します。 「共分散」の図形的なイメージ湧きましたでしょうか?
p.3 では、相関係数の式の分母の標準偏差はどういう意味があるのでしょうか? p.1の表では、xの値、群A及び群Bのyの値何れも平均値や標準偏差が同じでした。こうなることはほとんどあり得ないので、群Aを2倍、群Bを3倍にして、平均値及び標準偏差を変えました。このグラフが左下のグラフです。見かけ上は、p.1のグラフと同じように見えます。以前、「同じ土俵に載せる」において「標準化」の話をしました。p.2で説明した四角形の面積を群Aや群Bにおいても比較できるように、四角形のx軸及びy軸方向の辺の長さを各々の標準偏差で除して標準化します。上辺にある相関係数の式の赤枠が四角形のx軸及びy軸方向の辺の長さを標準化しています。右下のグラフが、左下のグラフを標準化したものです。p.2同様に群Aおよび群Bについて6つの面積を足し合わせて6で除した値は、つまり相関係数は、p.1左下の計算結果と同一になりました。結果的に同じ式なので、当然ですが。式を分解して考えると、意味がわかってくるものですね。なぜ、標準偏差が、分母にあるのか疑問を持つことが大事です。