クラスター分析の基礎に戻って説明します。
資料をご覧ください → クラスター分析その4
p.1 階層クラスター分析と非階層クラスター分析があります。個体数が少ない場合は階層クラスター分析、個体数が多い場合は非階層クラスター分析を用います。図をご覧ください。左図はデンドログラムです。赤線の位置により分類分けが変わってきます。右図の場合は、分類できる赤線を求めることになります。
p.2 デンドログラムが、この図のように、1個ずつ結合されていく場合は、上手く分類分けできていないということで「鎖連鎖」と呼ばれています。分類できないデータなのか、分類法が適していないかのどちらかになります。昨日、いろいろな分類法を実行してみて、鎖連鎖になっているものが幾つかありました。
p.3 分類方法について、図にしてみました。左がユークリッド距離を用いて、近いもの同士が同じクラスタとします。右図は重心法です。各クラスタの重心を求め、距離が短いものをクラスタに結合していきます。
p.4 ウォード法の説明です。各クラスタの変動(偏差平方和)の増加が最小になるように結合します。言葉では理解し難いので、具体例で説明します。A~Eの座標が右上の表のとおりです。Eがクラスタ①と②のいずれに結合するかを求めます。結合するxとyの平均値を求め、各ポイントから平均値を引いた値の平方(2乗)を合計して、結合後の変動を算出します。クラスタ①及びクラスタ②内の偏差平方和を算出し、先ほどの変動値から差し引きます。この差分が小さくなるクラスタとEが結合します。 このウォード法は、よく使われているようです。
今回後から基礎を学んだので、かなり遠回りしてしまいました。最初に勉強しておけばよかったと後悔しています。お陰で、少し深堀はできました。