ガラクタから宝を発掘

投稿日：2019年12月10日

最近流行りの言葉に「データサイエンス」とか「データマイニング」があります。今日は「データマイニング」について述べます。「マイニング」は英語で「Mining」と書きます。直訳すると「発掘」です。「データ発掘」つまりビッグデータから宝物を発掘することを意味します。

資料をご覧ください。　→　データマイニング

p.1　私のブログのようなガラクタの山の中から「データマイニング」して宝物を見つけるのです。マイニングの手順は①ビッグデータから必要な情報を収集する、②前処理により不要な情報や間違った情報を除去、修正する、③ヒストグラム、分散分析、多変量解析等の統計処理、テキストマイニングあるいはニューラルネットワークを用いて解析する、④解析結果を用いてモデル化する、そして⑤新しい知見を得る　順番に進めます。　本ブログでもこの解析方法については結構説明してきましたね。

p.2　「テキストマイニング」してくれるWebsiteを紹介します。先ずは「User Local」で、アドレスは→https://textmining.userlocal.jp/　です。サンプルとして「走れメロス」がありますので、クリックすると解析結果が表示されます。頻出する言葉を大きく表示、似た言葉のマッピング、感情表現がネガティブかどうか、語句のクラスタリングなど様々な解析を実施してくれます。

p.3　私が書き始めた本の原稿（出来上がるのは相当先です）の一部です。

p.4　上記原稿を上記Websiteの空欄部分に貼り付けて、解析を実行した結果です。いつもヒストグラムは大事だよと言っているのが反映されて、一番大きな字で書かれています。五感、感性もよく言っていますから大きめな字になっています。

p.5　上記の基になった語句の頻出回数の表です。

p.6　関連する語句のリンクです。これもよくリンクさせています。

p.7　似たものが近くに来るマッピングです。統計と標準偏差が近くにないのは少し違和感がありますね。統計という言葉があまり出てこないので、離れてしまったのでしょう。

p.8　クラスタリングですが、これはどうしてこのような分類になったかはよくわからないですね。

p.9　NTTのデータマイニングのサービスです。→　https://api.ce-cotoha.com/contents/index.html　アドレスをクリックすると、このような画面が現れます。

p.10　３種類の解析があります。右下の解析デモ体験をクリックすると、空欄の枠がありますので、文章を入れてみてください。

p.11　あまり長い文章は受け付けないので、短い文章を入れ解析させてみました。下のような樹形図が出て来ます。細かくて読み取るのが大変ですが、文章主語、述語などの構文のリンクを表しているようです。　上述の「User Local」のWebsiteの方が結果の表し方が面白いですね。

私のブログから宝が出てくれるとうれしいのですが・・・。