トピックス 統計

イメージの距離と異なる

投稿日:

マハラノビス距離を用いて判別分析を行なってみます。

資料はこちら → マハラノビス距離

p.1 データは昨日用いた男女の身長体重を用います。プロットした図を参照ください。集団を示しています。Pのマハラノビス距離を男の平均女の平均を基準に算出し、各々DMDWとします。DMーDW<0のときDMーDW>0のときと判定します。P点は男と判別されます。

p.2 左上図をご覧ください。2つの分布があり、各々の平均標準偏差を(xbar、σx)、(ybar、σy)とした時、各々の分布の平均値から、ちょうど1σ離れたxとyまでの距離はD=|xーxbar|/σx=|yーybar|/σyとなります。この式、どこかで見たことありませんか? 標準化する式ですね。この距離もマハラノビス距離と呼びます。このDの二乗であるD2マハラノビス距離としてよく使います。1変量の算出式において、式を変形しています。2変量以降、行列の積拡張されます。積の真ん中は、分散共分散行列の逆行列です。右図をご覧ください。AとBの集団がありその平均値からのマハラノビス距離が同じ値になる等高線楕円になります。P点のマハラノビス距離をA集団及びB集団の平均からの距離として算出します。その大小関係を見て、いずれの集団に分類できるかを判別します。

p.3 実際のデータをExcel上で計算していきましょう。上の2つ左が男右は女のデータを用いて、男のグループと女のグループの平均値からの偏差分散を算出し、構成員のマハラノビス距離を算出しています。それぞれ、分散共分散行列逆行列を算出し、平均値からの偏差の行列を前後で挟んだ積を用いて、マハラノビス距離を算出します。下の2つは、男のデータ女の平均値女のデータ男の平均値からのマハラノビス距離を算出しています。最後のピンク色の枠内に、上下で算出したマハラノビス距離の差D22−D21」を算出し、負なら男正なら女と判別します。 今回の正答率は0.7でした。

今回使用したExcelファイルはこちら → マハラノビス距離

マハラノビス距離の場合、平均値からのベクトルの長さと距離は一対一ではありません。楕円の等高線上が同じマハラノビス距離になっています。

-トピックス, 統計

Copyright© 進化するガラクタ , 2024 All Rights Reserved Powered by STINGER.