「いい加減に覚えると後が大変」のブログで「相関係数rと決定係数r2は成り立ちが違うよ」という話をしました。その後、決定係数r2がマイナスになることもあるという話を聞いて、どんな場合になるか気になってWeb検索しているのですが、未だに腑に落ちていません。現時点で分かったところまで、資料にしておきました。古い統計ソフトやExcelを用いるとマイナスになることがよくあるそうです。私は未経験ですが。
資料はこちら → 決定係数 その2
p.1 これは復習です。この2次曲線の場合、相関係数rはゼロ、決定係数r2は1となります。相関係数は直線近似の場合にだけ適用可能です。決定係数は、曲線にいかにフィットしているかを示しています。
p.2 決定係数の意味を説明しています。一番下の式のイメージをしてください。
p.3 上の2つのグラフを比較してみてください。何れも近似式は同一の式で、原点(0,0)を通ります。決定係数を計算する際に原点(0,0)を入れないものが左、入れたものが右の決定係数です。右のほうが(0,0)のデータが入っているので精度が上がり決定係数も大きな数値となっています。
下の2つのグラフを見比べてください。これも右は原点(0,0)のデータを入れて近似式及び決定係数を算出しています。今回は、近似式は異なります。右の決定係数は2E-12と限りなくゼロに近い値です。p.3の決定係数r2=1-(残渣変動の平方和)/(全変動の平方和)の右辺第2項目が1以上になればr2がマイナスになり得るわけです。 今回マイナスを目指したのですが、達成できませんでした。 できたら報告します。 今回の場合(0,0)のデータが1つあるだけで、こんなに影響がでますので、外れ値には気をつけましょうね。
資料の用いたExcelは → 決定係数