サンプルをグループ分けする判別分析について説明します。
資料はこちら → 判別分析
p.1 身長と体重のデータより、男と女を判別する「判別分析」の式を導出します。身長に対する体重のグラフを描いた場合、男と女のグループを直線のような判別関数を用いて判定します。直線より上にある場合が女、下にある場合に男と判定します。
p.2 各データから判別関数ax+by+c=0までの距離が左上の赤字で定義されます。全ての距離の平均がωバーで、各距離ωの平均値からの偏差の平方和より分散S2を式で表します。この全体の分散は、右上のようにグループ間の離れ具合の分散とグループ内での分散の和です。全体の分散に対する離れ具合の分散の比をFとします。
p.3 上述のFを変形していき、tで微分して微分係数=0とします。その時にω=ax+by+c、この直線が2つのグループの中点を通る際、c/bは各々の平均値の中点を通ります。
p.4 Excelにより各定数の値を算出します。
p.5 上述を求めた値をFの微分係数に代入して分子=0とするとtの2次方程式になりますので、根を求めます。各根t1とt2の時のFを用いてFが最大になるのはt2=-1.264266の時です、次ページにtに対するFのグラフを描いています。このt2の場合、ω=-1.264x+y+ (c/b)、この直線が2つのグループの身長と体重の平均値の中間点(xAB,yAB )を通りますので、c/b=149.8となります。各点の判別関数からの離れ具合は、ω=-1.264x+y+149.8となりました。直線の式は、ω=0のときで、y = 1.264x-149.8になります。
p.6 Excelのωのセル内に「=-1.264x+y+149.8」を入れて、男女の身長(x)と体重(y)の値を入れて計算できるようにします。計算したωが負の場合が男、正の場合、女と判定します。男の正答が8、女が9なので、正答率は(8+9)/20=0.85となりました。 100%判別できませんが、ある程度分類分け可能です。
今回計算に用いたExcelファイルです。 → 判別分析