主成分分析については、何度か取り上げてきました。主成分分析のイメージ図が「データマイニングエンジニアリングの教科書」(編著:森下壮一郎 発行所:C&R研究所)に書かれており、イメージし易いので、以下資料にまとめてみました。
資料はこちら → 主成分分析イメージ
xとyの相関データが左図のような楕円のように分布していたとします。×は楕円の中心で、x及びyの平均値です。次の図は、全てのデータからx及びyの平均値を差引いて座標の中心がxとyの平均値になっています(中心化)。次の図は、楕円の長軸がx軸に重なるように回転させます。分散共分散行列が対角行列になるように回す対角化の操作がこの回転に対応します。数学的には、「ラグランジュの未定乗数法」を用いて、分散の最大化になる条件求め、その固有値ベクトルを求めます。最後は正規化します。 この流れに沿って数式処理やプログラムを作成すればよいことになります。実際の主成分分析の流れは、「知りたいことは、とことん突き詰める」をご覧ください。