統計に用いるワークシート第5弾で、主成分分析を取り上げます。主成分分析については、過去ブログ「ばらつきが大きい方が主に効く?」「知りたいことは、とことん突き詰める」「どこが住み易く、どこが危険か?」で既に説明しています。今回は手作業を念頭にExcelのワークシートリニューアルしました。
ワークシートのExcelファイルはこちら → 主成分分析ワークシート
このワークシートの構成は第4弾までと同様です。 原理、ワークシートおよび実行結果のシートがあります。ワークシートの黄色のセルに式を入れて計算するだけです。もう、やり方は慣れてきましたね。この実行結果の数値に別のデータの数値を入れれば、主成分分析を実行することが可能です。ご活用ください。データ数が多い場合は行を挿入して使ってください。式は参照先を必ずご確認ください。参照セルが相対参照か絶対参照になっているかをご確認ください。
主成分分析は、投影した際に分散(ばらつき)が大きい方が主成分になります。今までは回帰式からの偏差が最小になるような係数を求めるため偏微分方程式=0としていましたが、今回は分散が大きい方を特定するためにラグランジュの未定係数法という技を使います。詳しく知りたい方は「制約条件を利用して最適値を求める」「山の頂上はどこだ?」「目標(山の標高、位置)にベクトルを合わせこむ」をお読みください。この方法、結構便利です。 求めたλは固有値と呼ばれていて、主成分か否かを判断する指標になります。大きい方が主成分です。 ついでに固有ベクトルも算出しておきましょう。主成分が横軸になるように回転した際の単位ベクトルaとbです。詳細は「固有ベクトルの統計への利用」をご覧ください。
本日覚えて欲しいこと
- 分散・共分散行列:先日の「ここにも登場する?」に登場した行列と似た形の行列が出てきたことに気が付きましたでしょうか。左上から右下に向かう対角線が分散、右上と左下が共分散になっています。この分散・共分散行列は、多くのパラメータ間の相関を問題にする場合に、計算を効率よくするための有用なツールです。
- 主成分分析は、投影した際に分散(ばらつき)が大きい方が主成分。
いかがでしたか? 分散を理解すると、今まで難しいと感じていたことも少し距離が狭まった気がしてきませんか?