マハラノビス距離を用いて判別分析を行なってみます。
資料はこちら → マハラノビス距離
p.1 データは昨日用いた男女の身長と体重を用います。プロットした図を参照ください。青丸が男、赤丸が女の集団を示しています。P点のマハラノビス距離を男の平均と女の平均を基準に算出し、各々D2MとD2Wとします。D2MーD2W<0のとき男、D2MーD2W>0のとき女と判定します。P点は男と判別されます。
p.2 左上図をご覧ください。2つの分布があり、各々の平均と標準偏差を(xbar、σx)、(ybar、σy)とした時、各々の分布の平均値から、ちょうど1σ離れたxとyまでの距離はD=|xーxbar|/σx=|yーybar|/σyとなります。この式、どこかで見たことありませんか? 標準化する式ですね。この距離もマハラノビス距離と呼びます。このDの二乗であるD2をマハラノビス距離としてよく使います。1変量の算出式において、式を変形しています。2変量以降、行列の積に拡張されます。積の真ん中は、分散共分散行列の逆行列です。右図をご覧ください。AとBの集団がありその平均値からのマハラノビス距離が同じ値になる等高線は楕円になります。P点のマハラノビス距離をA集団及びB集団の平均からの距離として算出します。その大小関係を見て、いずれの集団に分類できるかを判別します。
p.3 実際のデータをExcel上で計算していきましょう。上の2つは左が男、右は女のデータを用いて、男のグループと女のグループの平均値からの偏差や分散を算出し、構成員のマハラノビス距離を算出しています。それぞれ、分散共分散行列の逆行列を算出し、平均値からの偏差の行列を前後で挟んだ積を用いて、マハラノビス距離を算出します。下の2つは、男のデータは女の平均値、女のデータは男の平均値からのマハラノビス距離を算出しています。最後のピンク色の枠内に、上下で算出したマハラノビス距離の差「D22−D21」を算出し、負なら男、正なら女と判別します。 今回の正答率は0.7でした。
今回使用したExcelファイルはこちら → マハラノビス距離
マハラノビス距離の場合、平均値からのベクトルの長さと距離は一対一ではありません。楕円の等高線上が同じマハラノビス距離になっています。