「テキストマイニング」という言葉、ご存じですか? 以前「ガラクタから宝を発掘」で取り上げました。今回、「KHコーダー」というテキストマイニングを実行するフリーソフトを知りましたので、紹介します。
どんなことができるかのチュートリアルはこちら → https://khcoder.net/tutorial.html
ダウンロードはこちら → https://khcoder.net/dl3.html
私のブログのキーワードについてKHコーダーを使って分析してみました。その結果を資料にまとめてみました。
資料はこちら → テキストマインド(ブログ)
p.1 キーワードの頻出数が多い順番に棒グラフにしてあります。「品質工学」が「品質」と「工学」に分離されてしまっていますが、かなり頻度が高いことがわかります。
p.2 左図は、出現回数とその頻度です。右図は、横軸がブログの数です。
p.3 クラスター分析結果です。 分類分けですね。 左半分は、品質工学関連、統計関連というようによく分類できていますが、右半分はどのような観点で分類分けされているのかよくわからないです。
p.4 「共起ネットワーク」を用いた分析結果です。品質工学、統計など関連性が高いものがかたまっていて実線でリンクしています。破線は、別の分類であっても関連性があるところを結んでいるようです。 医療と宇宙がリンクしている理由が不明ですが、生命と宇宙は何れも神秘な存在ということなのでしょうか?
p.5 「対応分析」結果です。x軸とy軸のゼロに近いほど、ありふれた語句で、離れているほど特異な単語であるようです。これを見て、青枠内は、右脳を使うもの、緑枠内は創造性を示しているのではないかと勝手に解釈しました。左端に「時間」が一つだけ離れています。なぜなのでしょうか?
p.6 「多次元尺度構成法」の分析結果です。 この結果は、どのような関連付けなのかわかりません。p.4の方が関連付けは分かり易い印象を受けました。
KHコーダーはまだ使用方法もわからず、とにかく使ってみました。それでも関連性を分析してビジュアル化するツールとして使えそうな気がしています。アンケート調査の分析、市場調査などにも使えそうな気がします。 試してみてください。