「どんな関係があるの?」で多変量正規分布の式にマハラノビス距離が登場する話をしました。以前からマハラノビス距離は、何度か取り上げてきました。その続きで、少し整理したいと思います。今までに取り上げたマハラノビス距離のブログです。「MT法にpythonを使ってみました」「正常、異常をどう数値で判断するか?」「違いは距離で区別する」「やっと理解の糸が繋がった」「より近いものは?」「パターン作成」「どの項目が効くの?」「どちらを選択するの?」こんなに取り上げていたとは。
本日の資料 → マハラノビス距離その10
p.1 数学と国語の得点の平均値と標準偏差が左上表の状態であった場合に、ある学生が数学と国語いずれも60点の得点だったとします。どちらが評価が高いでしょうか? 分布図を描いてみれば、直感的にわかります。数学の場合は、標準偏差上に60点があり、国語の場合は標準偏差と平均値の間に60点があります。標準偏差以上の割合が約16%の人がいるので、国語の60点以上の人はさらに多くの割合いることになります。つまり、数学の方が点が取り難いことを示しています。平均から何れも10点差ですが、数学の方が国語より距離が遠いというイメージになります。これを数値化してみます。幾何学的な距離は右上のように得点から平均値を引いた絶対値です。幾何学的には数学も国語も同じ距離の10です。統計で登場してくる「標準化」をします。幾何学的距離を標準偏差で割ります。これを1変量のマハラノビス距離と呼びます。数学と国語について算出すると、数学が1.0、国語が0.5になるので、数学の距離が国語よりも遠くになります。上述のイメージを数値化できました。標準偏差で割ることにより同じ土俵に載せた比較が可能になるのです。
p.2 以前に分散のところで述べたように、絶対値の距離よりも自乗の距離の方が扱いやすいので、Dを2乗したD2をマハラノビス距離とします。この式を変形して、xの平均からの偏差で、標準偏差の逆数を挟みます。この形が大事です。2変量に拡張します。xとyの分散と共分散行列の逆数を真中にして、前後をxとyの各々の平均からの偏差の行行列と列行列で挟みます。多変量に拡張する場合は、行と列を増やしていきます。平均からの偏差の行行列と列行列で、分散共分散行列の逆数を挟みます。簡略化すると、XとXの転置行列でS−1を挟んだ式になります。この形は、有限要素法にも出てきました。
p.3 1変量の正規分布の式はおなじみの式ですね。eの肩にマハラノビス距離D2があります。変量を増やすと、今度はeの前にある係数の分母に分散共分散の行列式の平方根が入ります。そして、tXS-1Xのような行列の式で表されるので、多変量でも計算が容易になります。
今回、マハラノビス距離について整理してみて、正規分布の確率密度関数との関係もよくわかりました。