以前「相関が良すぎてもダメ」で多重共線性を取り上げました。パラメータ間に相関関係が良いものがあると、重回帰分析やマハラノビス距離計算に支障が出るという問題です。今回は「主成分回帰分析」という手法により、「多重共線性」を回避する手法について説明します。
資料はこちら → 主成分回帰分析
p.1 「相関が良すぎてもダメ」の添付資料p.6〜8をまとめました。詳細は、前ブログをご覧ください。身長と体重に強い相関性がある場合、これらのデータを用いて重回帰分析を実行すると、一部の係数及びVF値が計算不能になることを示しました。前回はそこまでの話でした。
p.2 身長と体重の何れかを省いて、重回帰分析を実施する手もありますが、今回は「主成分回帰分析」という手法について説明します。主成分分析では、各成分が直交するような軸を見つけるため、相関関係はない環境になります。したがって、各主成分のスコア(各軸に投影された座標の値)と目的関数との間の重回帰分析を実施すれば、多重共線性を回避して、予測可能な重回帰曲線を導くことが可能となります。p.1のデータの内、距離を目的変数、握力・身長及び体重を説明変数とします。説明変数について主成分分析を行い、各因子の負荷量(固有ベクトル)を算出します。算出の仕方は「どちらを選択するの?」をご覧ください。算出した負荷量(固有ベクトル)を用いて、1〜15行のデータの合成量を算出します。第2主成分についても同様に合成量を算出します。距離を目的変数、第1主成分と第2主成分のスコアを説明変数として(真中下の赤枠の表)、重回帰分析を実施した結果が右上です。Excelの分析ツールにおいて回帰分析を選択し、「観測値グラフの作成」にチェック入れると、左下あるいは右下のグラフが描かれます。横軸が第1あるいは第2主成分、縦軸が距離のグラフで、●が実測値、◯が予測値です。予測値が比較的よく予測できていると思います。このように、多重共線性が含まれるデータにおいて、予測の式を得ることができるメリットがあります。
p.3 今回の主成分分析のバイプロット図です。この図からも、身長と体重が同じベクトル上に載っていることから多重共線性であることを示しています。この場合の第1主成分は、身体的特徴という意味合いでしょうか?