主成分分析については、「統計解析は「R」で勉強しよう」「知りたいことは、とことん突き詰める」「どこかで見たことがある行列」で何度か取り上げてきました。統計ソフトのMinitabで主成分分析をする際に「相関行列」を使うのか「共分散行列」を使うかの選択があります。統計ソフトを使う際に、このような選択があると迷いませんか? ネットやAIに聞いてみてもなかなか腑に落ちた説明を得ることができないので、Excelを用いて、検討してみました。実行結果を基に資料にまとめてみました。
資料はこちら → 主成分R
p.1 通常、主成分分析は多変量解析に用いるのですが、簡単にするため2成分系で計算してみます。20名の学生の数学と英語の試験結果が緑枠のデータです。左側は、「共分散行列」、右側は「相関行列」で計算しています。先ずは、左の「共分散行列」から説明します。変量piは、負荷量a、bと数学の得点xと英語の得点yとの積の和で定義します。学生1〜20名について変量piを算出し、これらのpiの分散Vpが最大になる負荷量a、bをExcelのソルバーで算出します。第1主成分の寄与率は、数学と英語の得点の分散の和で第1主成分の分散を割って得ます。次は、「相関行列」について説明します。数学と英語の得点を各々の平均値と標準偏差を用いて標準化してx(s)、y(s)とします。左と同様にソルバーを用いて負荷量a'、b'を求めます。寄与率も同様に求めます。
p.2 Minitabを用いて、p.1 のデータを「相関行列」と「共分散行列」の2通りで実行した結果を右側に示します。左側がMinitabの手順で、手順③のところで、「相関行列」と「共分散行列」を選択する必要があります。右上が相関行列を用いた結果、右下が共分散行列を用いた結果です。何れも、真ん中辺り記載の固有値分析の第1固有値が横軸方向の分散の最大値、第2固有値が縦軸方向の分散の最大値を示しています。グラフ上の青矢印が示している数値です。何れのグラフにおいても、数学と英語のポイントに向かった固有値ベクトルが茶色で描かれています。固有値ベクトルの横座標値への射影=第1主成分の固有値✕固有ベクトルの係数(緑枠内の数字)、縦軸への射影=第2主成分の固有値✕固有ベクトルの係数(ピンク枠内の数字)となります。
p.3 相関行列と共分散行列を用いて得られたバイプロット図を見ると、固有ベクトルの方向及び大きさが異なっています。相関行列と共分散行列との違いについて、ネットで調べてみたのですが、どのように使い分けるか、明確な説明はまだ見つかっておりません。ただ、相関行列は標準化されているので、単位が異なる多変量にも対応ができるようです。同じ変量の単位が同じであれば、共分散行列の方が影響の大小関係が明確になると思います。今回に事例は、点数なので共分散行列の方が変量間の影響度の違いをみることができそうです。
p.4 5成分系でも手順は一緒です。このページでは、第2主成分に関する各因子の係数と寄与率の算出法を説明します。⑤の式をご覧ください。各因子(教科)のデータより第1成分の効果を差し引きます。この値と各因子の負荷量の積の和をq'とします。これらのq'の分散Vq'が最大となる負荷量をソルバーで求めます。
p.5 前ページで求めた第1成分の負荷量をx軸、第2成分の負荷量をy軸にしてプロットしたものが、左図の負荷量プロットです。この図から、見えてくることは、赤線(y=0)の上の領域が理系、下が文系に区別可能です。第2主成分が、理系と文系の違いを表しています。では、第1主成分は何かというと、「総合力」と考えればよさそうです。右図は20名の学生の第1主成分と第2主成分を軸にした際のプロット図になります。総合力が高い・低い、理系が得意、文系が得意などの傾向を読み取ることができます。
p.6 Minitabで解析する手順を示します。③の手順のところで、相関行列あるいは共分散行列を選択して解析してみてください。p.6とp.7が解析結果です。
p.7 共分散行列を用いた主成分分析結果です。固有分析と固有ベクトルの結果は、Excelで求めたp.4の値と一致しています。バイプロット図は、負荷量プロットと主成分プロットを合わせて描いた図であることがわかります。真ん中上の図は、第1主成分の比率が一番高いことを示し、右上図は、縦軸がマハラノビス距離で閾値の3.846を超えたものが外れ値と判定されます。
p.8 相関行列を用いた主成分分析結果です。この結果はどう見てとればよいのでしょうか?国語だけ異質に見えます。英語も国語以外の教科と同様のベクトルになっています。
p.9〜12 統計ソフトRには「prcomp」と「princomp」の2つのコマンドがあります。右上表にまとめておきます。不偏分散を用いるか標本分散を用いるかの違いと、相関行列を用いるか共分散行列を用いるかの違いの組み合わせがあります。p.9〜12の右上の表に使われているところを赤文字にしておきます。 「R」の良いところは各成分の番号がグラフ内に表示されているところです。
主成分分析の際に、相関行列を用いるか共分散行列を用いるかの疑問から、少し深堀りしてみました。統計ソフトを用いる際に、選択肢がいろいろあって、どれを用いるか困ることが多いですね。ブラックボックスにせずに、意味を理解してから使用しないと間違った解釈をするかもしれません。