xy平面上にあるデータをグループ分けする手法は、機械学習でも取り上げました。本日は、数学的な手法を用いた原理を紹介します。
資料はこちら → 判別式
p.1 左上の表のようなxy平面上のデータがP及びQグループに分類されている場合の判別式を求め、これ以外のデータについてグループを判別します。データを散布図で描いたものが右図です。破線のような仕切り線があって、左側がPグループ、右側がQグループとすれば良さそうです。xとyの平均値を通り、破線に垂直な直線lを引き、zi=a(xiーxbar)+b(yiーybar)という式で表します。xとyの平均値のときzi=0となります。zi>0のときQグループ、zi<0のときPグループと判定します。直線lを回転して水平にしたものが、左下図です。Pグループの平均値を直線lに投影したzPbarとQグループの平均値を直線lに投影したzQbarの間の距離をSBとした時、SBが大きいほど判別し易いですね。SBが大きくなる直線lを求めることになります。上述の直線lを回転するのは「どこかで見たことがある行列」で説明した主成分分析と同じ手法ですね。
p.2 計算に必要な値をまとめています。分散分析に出てきたような平方和が登場してきます。各種平方和を成分数で割れば分散になりますね。
p.3 左上から右下まで、表のデータを入力して計算しています。S-1SBの固有値及び固有ベクトルを求める必要があることをp.7で示しています。そして、このS-1SBの一部である行列Uの固有値及び固有ベクトルを求めていきます。固有ベクトル(a b)=k(13 -6)となり、a=13/√205、b=-6/√205が算出されました。これをziの式に代入して判別式が求まりました。
p.4 この式を用いて、判別します。判別基準は、zi>0のときQグループ、zi<0のときPグループです。(xi ,yi )=(9 ,8)の点は、Qグループ、(xi ,yi )=(5 ,4)の点は、Pグループと判定できました。右図をご覧ください。この判別式で合っていそうです。
p.5〜p.8 数学的な理屈です。興味の有る方は、読んでください。p.7の上段にある相関比=群間変動SB/全変動STが最大になる条件を見出す必要があります。最大となる条件は「ラグランジュの未定係数法」を用います。この方法は、「制約条件を利用して最適値を求める」「山の頂上はどこだ?」「目標(山の標高、位置)にベクトルを合わせこむ」をお読みください。