類似性のあるものをグループ分けしていく「クラスター分析」という手法があります。先ず、クラスター分析は、階層クラスター分析と非階層クラスター分析に大別されます。前者では、最短距離法(最近隣法)、重心法、群平均法、メディアン法、後者ではK-means法により分類していきます。
資料をご覧ください → クラスター分析その1
p.1 内積を用いて類似性を評価する方法を説明します。馬A~Fの、1600m未満、2200m未満あるいは2200m以上のレースでの出場回数を表にしています。短距離、中距離あるいは長距離に強い馬がそれぞれいると思います。距離による出場回数が類似した馬がどれとどれかを定量化します。相関係数は、内積で表すことができます。内積は、各々の成分の積の和ですので、各々の馬のレース毎の出場回数の積の和を総渡りで算出したものが、右表です。数値が大きいほど類似性が高まります。馬CとFが30で一番類似性があることを示しています。
p.2 ユークリッド距離は、2次元であればピタゴラスの定理と同じですが、今回は3変数なので3次元の距離を求めます。馬A~Fについて総渡りでユークリッド距離を算出したものが右表です。この場合は、数値が小さい程、距離が小さいので、馬AとBが類似性が高いことになります。
内積とユークリッド距離で類似性が異なる結果となりました。なぜなのか? 今の所、不明です。分かり次第お知らせいたします。