正月気分は抜けましたでしょうか? 興味のない方はすみませんが、統計の話です。「1億人のための統計解析」(著者:西内 啓 発行所:日経BP社)を読み始めました。統計は、知識があっても使わないと意味がありません。統計ソフトを用いるよりも、統計の原理を知っていた方が得です。この本の著者は、2014年に「統計学が最強の学問である」(著者:西内 啓 発行所:ダイヤモンド社)を発刊され、コロナ罹患予測でテレビにもよく出演されていました。上述の本は、Excelを用いた実践例が多いので、とても参考になります。興味のある方はご覧になってください。私が、勉強した部分は少しずつ資料にして紹介します。
資料はこちら → 統計解析その1
p.1 課題は、「和食レストランの平日夜間の客入り悪い理由が知りたい」ということで、アンケート結果を基に解析する手順が説明されています。先ず、「成果指標」を明確にする必要があります。「成果指標」とは、「できた時に最もうれしいこと、あるいは望ましいこと」です。アンケートの項目は、年齢、性別、家族構成、CMイメージ、来店回数、来店人数、利用金額、注文メニューがあります。この項目の中から「成果指標」を選ぶとしたら、何を選択しますか? 普通に考えると、「来店回数を多くする、来店人数を増やす、利用金額が増える」としますね。最も良いのは、直接的に利益を増加させたいもの、例えば「過去3か月間の夜間帯総利用金額」などのように自分で定義すると良いそうです。「成果指標」の次に決めるのは「解析単位」で、この場合は、「顧客」か「商品」のいずれかにしますが、今回は「顧客」とします。次は「説明変数」で、「成果指標」で取り上げた項目以外全てが対象となります。最後は「解析手法」の設定です。右下の表をご覧ください。今回は、「成果指標」が「総利用金額」なので、「量的変数」、今回の「説明変数」は「質的変数」の一つである「性別」で解析するので、解析手法は「t検定、クロス集計」を用います。実際の計算事例は次のページで説明します。
p.2 左上のようなアンケート結果がある場合、F列(来店回数)とH列(利用金額)の掛けたP列(総利用金額)を計算し、C列をフィルター機能を使って女性と男性の行にまとめます。①Excelの挿入→ピボットテーブルを選び、②行に「性別」、「積」に合計/総利用額を入れます。③合計/総利用額の上にカーソルを置き、右クリックして表示されたリストの中から「平均」を選択してOKすると、「平均/総利用額」に変更されて、女性、男性の総利用額の平均値が表示されます。「男性」のセルの下にある「統計」にカーソルを合わせて右クリックして表示されたら「統計の削除」をクリックします。⑤女性の平均値−男性の平均値を算出します。女性と男性の「平均値の差のt検定」を行います。⑥数式→「TTEST」を選択し、⑦「検定の指定」を2(両側検定)、「検定の種」を3(非等分散)とします。この計算結果、p値=0.00062184が得られ、p値<0.05なので、「有意差あり」と検定されました。 Excelには、ピボットテーブルの他にピボットグラフがあることを知っていましたか? 私は、初めて知りました。⑧ピボットグラフのアイコンをクリックして、ピボットテーブルと同様に②〜③を実行してOKをクリックすると右下のようなグラフを作成してくれます。女性と男性の総利用額の平均値を棒グラフで描いています。