トピックス 数学 統計

ばらつきが大きい方が主に効く?

投稿日:

固有値あるいは固有ベクトルは、統計の「主成分分析」に利用されているようです。以前に統計ソフトR」で少し紹介しました。 今日は、「主成分分析」の原理を説明した良い資料を見つけましたので紹介して、説明します。

資料はこちら → https://statistics.co.jp/reference/software_R/statR_9_principal.pdf

p.4,5 例えば体重というデータだけであれば1次元ですが、身長のデータが足されると2次元と増えます。 5教科のテスト結果がある場合は5次元ですが、これではデータ数が多くて評価できないので、次元を縮小する必要があります。例えば、3次元のデータを効果が認められる2次元にしてあげれば見やすくなりますね。

p.6~8 2次元のデータをx軸とy軸に影絵のように写します(この操作を数学では射影と言います)。この時、ばらつき(分散)が大きい方が情報が多いので採用します。このような軸を探すのです。

p.9~11 3次元の場合、分散が一番大きくなる軸を「第1主成分軸」とします。次は、この軸に直角になる軸無数にあります)の中から分散が一番大きくなる軸を探してそれを「第2主成分軸」とします。 分散が大きいということは、この効果が大きいことを示します。分散が小さい時は、違いが認められないことを意味しています。

p.13~17 統計科学研究所のホームページにあるデータを基に統計ソフト「R」で解析する方法が書かれています。

ホームページはこちら → https://statistics.co.jp/  左下方にある「学習等参考資料」の「統計データ(xls,csv)」がデータです。 その下に統計ソフト「R」の使い方があります。

p.18 分析結果です。累積寄与率は第1主成分の寄与率が66.7%、第1と第2主成分を足したものが78.9%あるという意味です。

p.22  赤枠の数字が第1主成分に射影した各科目の分散を示しています。 この分散が大きいほどその項目の効果が大きいので主成分になり得ることを示しています。

p.24 この赤枠は第2主成分に射影した各科目の分散です。

この資料では固有値固有ベクトルがでてきませんが、この分散が大きいことが主成分であるということは覚えておいてください。

 

 

-トピックス, 数学, 統計

Copyright© 進化するガラクタ , 2019 All Rights Reserved Powered by STINGER.