トピックス 統計

相関がある空間はどこ?

投稿日:

昨日「コレスポンデンス分析」の話をしました。この原理を少し理解したので、忘れないうちの資料にまとめておきます。コレスポンデンス分析はパラメータが多いので、2つのパラメータで説明します。

資料ご覧ください → 数量化3

p.1 対象者A~D洋食和食のどちらが好きかをアンケートしました。好む場合、そうでない場合をとします。どちらでもの人は両方1とします。対象者がサンプル、和・洋食がカテゴリーと呼びます。各々の合計を計算します。a1~a4及びb1、b2スコアと呼ばれるもので、サンプルデータとカテゴリデータが一番相関が高い軸に投影した数値です。p.5にグラフを載せておきますので、ご覧になるとイメージつくと思います。今回、相関係数が大きくなるためのスコア値を求めるが最終目標です。分散、平均値及び共分散はスコアとアンケート結果を用いて、表の周りの数式になります。

p.2 ここからは数式の変形が続くので、読み飛ばしても構いませんが、方針だけは理解しておいてください。相関係数Rが大きくなるためのai及びbiを求めるのが最終目的です。この際にラグランジュの未定乗数法という便利な手法を用います。以前にも説明したので、詳細は「制約条件を利用して最適値を求める」「山の頂上はどこだ?」「目標(山の標高、位置)にベクトルを合わせこむ」をご覧ください。今回は平均値を0分散1になるように標準化するので、制約条件は平均値=0、分散=1相関係数の分子共分散Vabですが、これを最大にしたいので、共分散から制約式に係数をかけたものを差し引いた関数Gを定義します。このGをa1~a4及びb1、b2で偏微分してとした式が6つできます。

p.3 6つの式にa1~a4及びb1、b2をかけて整理すると、λ=μが得られるので、μをすべてλに置き換えます。

p.4 λの2次方程式を解くとλ1と0.583の二つが得られます。1は変化しないので、0.583だけ用います。これによりa1~a4及びb1、b2及び相関係数が求められました。このλは固有値ですね。

p.5 a1~a4及びb1、b2を表の中に書き込み、数直線上に位置を示しました。年齢により好みがありそうだということを示しています。

パラメータが多くなると、これらの式を行列で解くことになります。統計ソフトの中身はブラックボックスですが、このようなアルゴリズムによるプログラムが動いているはずです。

-トピックス, 統計

Copyright© 進化するガラクタ , 2020 All Rights Reserved Powered by STINGER.