トピックス 統計

具体的な数値を入れて計算してみる

投稿日:

xy平面上にあるデータグループ分けする手法は、機械学習でも取り上げました。本日は、数学的な手法を用いた原理を紹介します。

資料はこちら → 判別式

p.1 左上の表のようなxy平面上のデータP及びQグループに分類されている場合の判別式を求め、これ以外のデータについてグループを判別します。データを散布図で描いたものが右図です。破線のような仕切り線があって、左側がPグループ、右側がQグループとすれば良さそうです。xとyの平均値を通り、破線に垂直な直線lを引き、zi=a(xiーxbar)+b(yiーybar)という式で表します。xとyの平均値のときzi=0となります。zi>0のときQグループ、zi<0のときPグループと判定します。直線lを回転して水平にしたものが、左下図です。Pグループの平均値を直線lに投影したzPbarとQグループの平均値を直線lに投影したzQbarの間の距離をSBとした時、SBが大きいほど判別し易いですね。SBが大きくなる直線lを求めることになります。上述の直線lを回転するのは「どこかで見たことがある行列」で説明した主成分分析と同じ手法ですね。

p.2 計算に必要な値をまとめています。分散分析に出てきたような平方和が登場してきます。各種平方和を成分数で割れば分散になりますね。

p.3 左上から右下まで、表のデータを入力して計算しています。S-1SB固有値及び固有ベクトルを求める必要があることをp.7で示しています。そして、このS-1SBの一部である行列U固有値及び固有ベクトルを求めていきます。固有ベクトル(a b)=k(13 -6)となり、a=13/√205、b=-6/√205が算出されました。これをziの式に代入して判別式が求まりました。

p.4 この式を用いて、判別します。判別基準は、zi>0のときQグループ、zi<0のときPグループです。(xi  ,yi )=(9 ,8)の点は、Qグループ、(xi  ,yi )=(5 ,4)の点は、Pグループと判定できました。右図をご覧ください。この判別式で合っていそうです。

p.5〜p.8 数学的な理屈です。興味の有る方は、読んでください。p.7の上段にある相関比=群間変動SB/全変動ST最大になる条件を見出す必要があります。最大となる条件は「ラグランジュの未定係数法」を用います。この方法は、「制約条件を利用して最適値を求める」「山の頂上はどこだ?」「目標(山の標高、位置)にベクトルを合わせこむ」をお読みください。

-トピックス, 統計

Copyright© 進化するガラクタ , 2024 All Rights Reserved Powered by STINGER.