昨日、「デンドログラム(樹形図)」を2種類の計算方法で描きましたが、異なった樹形図になりました。見直しましたが、さらに別の樹形図になってしまいました。
資料をご覧ください → クラスター分析その3
p.1 相関係数の説明図です。相関係数rは、分子がベクトルXとYの内積、分母がXとYの大きさです。相関係数r=cosθでもあります。θ=0のときcos0=1ですね。XとYのベクトルが重なったθ=0のとき時、相関係数は1となります。
p.2 昨日、内積で計算した値をベクトルの大きさで割って相関係数に置き換えてデンドログラムを描いてみました。
p.3、4は昨日の再掲です。
p.5 幾つかの分類法及び統計ソフト(MinitabとR)で求めたデンドログラムです。種々の樹形になってしまいました。ますます混迷が深まってしまいますね。どれを採用したらよいかわからなくなってきました。 今回のデータ自身に類似性がないのでしょうか?
p.6 統計ソフトでデンドログラムを描いてみました。①「cluster.csv」というファイル名のcvsファイルをRで読み込み、Dataという変数に代入します。Dataとすると表示しますので、読み込めたどうかを確認してください。②d <-dist(data)でデータの個体間の距離を計算します。③hc <- hclust(d,method=" メソッド名")のメソッド名のところに表に記載の語句を入れると「階層クラスター分析」を実施して変数hcに値を入れます。ウォード法、メディアン法あるいは重心法の場合は、「d」を「d^2」に置き換えてください。④plot(hc)でデンドログラムを描いてくれます。種々のデンドログラムが描かれました。益々、どれが適切かわからなくなりました。 もういちど基礎に立ち戻らなければいけなくなりました。
統計ソフトRのインストール方法は「思ったより操作簡単な統計ソフト「R」」をご覧ください。無料の統計ソフトとしては、実績があり有名です。