一昨日、「歪度」と「尖度」で正規分布との違いを数値化するという話をしました。今日は、グラフから直感的に正規分布と合っているかどうかを見極める方法を説明します。 Excel等のソフトがなかった時代は、「正規確率紙」にプロットして正規性を確認していたようです。興味のある方は以下のWebsiteをご覧ください。Excelでこのシートを作成でき、ダウンロードも可能です。何年も前に使用したことがありましたが、使い方を忘れてしまいました。
正規確率紙のWebsiteはこちら → 正規確率紙
本日の説明資料はこちら → 分布比較
Excelファイルはこちら → 正規確率
p.1 「正規確率紙」の代わりに、比較するグラフを描くための準備をします。208人の体重のデータが3パターンあります。歪度が正、ゼロ(正規分布)及び負の3パターンです。「確率密度」は一定の体重幅内(今回5kg)に該当する人数(度数)を総人数で割った数値です。Bの正規分布の検算のところは「NORM.DIST(x,平均値,標準偏差,FALSE)」という正規分布の確率密度を算出する式で検算しています。ただし、この式の先頭に体重幅の5kgを掛けています。検算に使用した確率密度関数f(x)は連続なxに対して用います。今回のヒストグラムでは離散値を用いているため、この幅を掛ける必要があります。確率は確率密度関数f(x)の積分です。
p.2 左図は、横軸に体重、縦軸に「確率密度」として。歪度正、正規分布及び歪度負のグラフを描いています。真中のグラフは、横軸を体重にした時の累積確率密度を示しています。右図は、正規分布の累積確率密度を横軸にして3つの分布の累積確率密度を描いたものです。この場合は、歪度が明確なので、3つのグラフとも容易に違いが判りますね。
p.3 平均値が正規分布と等しいがn数が小さいt分布の場合について、体重に対して人数をプロットすると右上のようになります。体重に対して確率密度をプロットすると区別がわからないので、右下のように累積確率密度(正規分布)を横軸にして、t分布の累積確率密度をプロットすると斜め上と下の赤丸の部分で正規分布の直線(青線)に比較してズレが生じていることがわかります。
p.4~6 正規分布を図で描く際のコツ、統計量の意味、そしてσが変曲点であること(以前にも説明)を再掲しました。