IoT, AI,機械学習 トピックス

同じデータなのになぜ

投稿日:

類似性のあるものをグループ分けしていく「クラスター分析」を「デンドログラム(樹形図)」にする方法を説明します。視覚的にクラスターの違いを見ることができます。トーナメントのような形状ですね。

資料はこちら → クラスター分析その2

p.1 まず、昨日の類似性を用いた分類を行います。馬CとFの類似性が30なので、同じグループとします。左の上から2つ目の表のようにCとFの平均値を馬CFの列に計算して書き込みます。残りの馬A、B、D及びEの値はそのままです。この表を基に、右の類似性を内積を用いて計算します。20.5が一番大きいので、馬CFと馬Aの類似性が次に高いことが分かります。左上から3番目の表のように、馬A、CFを同じグループとし、平均値を馬ACFの行に書き込みます。右の表で類似性を算出して、あとは同様の操作を続けます。赤字が2つのグループ間の類似性の数値です。 縦軸に類似性の数値、横軸は馬名です。下から順番に書いていきます。木のような形状をしているので、「デンドログラム(樹形図)」と呼びます。

p.2 ユークリッド距離を用いて、「デンドログラム(樹形図)」を作成します。今回は、数値が小さい組み合わせを同じグループとします。p.1と同様にまとめていきます。デンドログラムの縦軸がユークリッド距離になります。

p.3 内積ユークリッド距離を用いたデンドログラムを並べてみます。昨日も述べましたが、分類の仕方が違うと同じデータなのになぜ異なるのでしょうか?疑問です。何か見落としているのでしょうか? ChatGPTに質問してみましたが、生成AIも混乱しているようです。

p.4 生徒A〜F国語、数学、理科、社会及び英語の評価です。ユークリッド距離を用いてデンドログラムを描いてみました。この場合、2つの大きなグループが存在することが視覚的に捉えることができました。

 

-IoT, AI,機械学習, トピックス

Copyright© 進化するガラクタ , 2024 All Rights Reserved Powered by STINGER.