研修の際に「相関係数R(rとも書く)」と「決定係数R2(r2とも書く)」の違いがわかる?という質問したのですが、答えられないですね。相関係数は知っている?と聞くと答えられるかもしれませんが、決定係数との違いと言われると途端にわからなくなってしまいます。私もR2は相関係数と同じ意味であると長らく思っていました。 資料にまとめてみましたので、ご覧ください。 → 相関係数と決定係数
p.1 緑色が質問です。相関係数Rと決定係数R2は異なる数値になることもあり得ます。 この1枚目だけが伝えたいことで、以下は各々の係数導出の意味を記載しました。 興味のある方は、ご覧ください。 直線近似の場合には、決定係数は相関係数の2乗になるのです。
相関係数Rは、xに対するyの相関関係が、右肩上がり(正の相関)なのか左肩上がり(負の相関)それとも相関がないのかを数値で示すので、直線的な相関を見ます。 決定係数R2は、当てはめようとしている直線あるいは曲線に対する「当てはまり度」を示しています。 例に示した二次曲線は、直線的な相関はない(R=0)が、二次曲線にピッタリフィットしているのでR2は1になります。
p.5 相関係数は、2つのベクトルの内積を各々の大きさで割った値で、ベクトル間のcosθを示しています。相関があるとは同じ方向にベクトルがある状態、品質工学で出てくる直交している場合は相関ゼロということになります。
p.6 このページ上図は覚えておいてください。品質工学、分散分析及びGRRなど全てに共通した概念です。 全変動の平方和=回帰変動の平方和+残差変動の平方和です。 世の中全て、平方和で成り立っているようです。 寸法の公差も測定器の誤差もそうですね。
注)「GRR:Gage Repeatability and Reproducibility; 測定あるいは測定器の繰り返し性と反復性」 いつか解説します。
p.8~12 決定係数は、最小二乗法で回帰式の係数を求めることと関係していますので、式の導出をまとめました。 多次元になると連立方程式を解くために行列を利用する必要が出てきます。
p.13 直線近似の場合、決定係数R2が相関係数の二乗になることを式の変形で示しています。
p.14 相関係数と回帰式の勾配Aとの関係式です。
いかがですか? いい加減に理解してしまうと、本来の意味と取り違えてしまうことがよくあります。 私の反省でもあります。