米国のどこが犯罪が多くて危険か、日本のどの都道府県が過ごし易いかなどをデータを基に分析することができます。1昨日紹介した「主成分分析」です。
実施例をご覧ください。 → 主成分分析(事例)
p.1 ①「R」にあるデータセットから「USArrests」というファイルを読みこみます。②表示して③主成分分析結果をグラフ化します。その結果が右図です。赤の矢印の先にいくほど犯罪が増加します。 フロリダは犯罪の矢印がいずれも集中していますので、観光地ですが注意が必要です。
p.2 いろいろなデータが、専門機関から得ることが可能です。①今回は、人口、ガン死亡率、犯罪件数及びコンビニエンスストアの店舗数を都道府県別に表にして、CSV形式で保存したものを「R」に読み込みます。ファイル名は「fdata.csv」で、読み込んだものを変数「ffdata」に代入します。②頭(head)の部分だけを表示すると、③1列目に不要な番号が表示されていますので、青枠のようにして消して、改めて「ffdata」に代入します。④主成分分析を実行してグラフ化します。 右図が実行結果です。 ガン死亡率は東北地方が高く、犯罪やコンビニエンスストアの数は人口に比例して高くなるので、犯罪、コンビ及び人口の3つの赤い矢印は重なっています。 都市部は医療機関が整備されているので、ガン死亡率は平均以下であることがわかります。
以上のように、データを活用すれば「住み易い都道府県」「うどんとそばの消費量分布」「読書のジャンル分析」などいろいろ解析することが可能になります。簡単なコマンドで傾向分析するにはこの「R」は有用であると思います。 いろいろと試して使ってみることが大事です。そうすることで、この「R」の有用性を肌で感じるはずです。 次回は「python」の統計ライブラリ「pandas」との使い勝手を報告します。