先週、不偏分散の話「不偏分散のイメージは?」をしました。まだ腑に落ちない方も居られると思います。サンプル数が少ないところと多いところではnと(n-1)で割るのは大きな違いがあると思いませんか? サンプル数が多いとnと(n-1)の差は少なそうですね。サンプリング数設定は皆さんも悩みますね。過去ブログ「悩ましいサンプリング数の設定」でも取り上げました。そこで、nと(n-1)はどの辺りから影響がなくなるかを大雑把なシミュレーションしてみました。Excelファイルも添付しますので、n数増やすなど試してみてください。
実行結果の資料 → 不偏分散と分散
Excelファイルはこちら → 不偏分散
資料をご覧ください。平均0、標準偏差1(分散も1)の正規分布になるようなデータ100個を乱数を利用して作ります。横軸はー3.0~3.0の範囲です。±3σでほぼ0近くになる正規分布なので、この範囲にしています。①Excelファイルの「正規分布データ」のシートのA列です。Excel関数「NORMINV(RAND(),0,1)」を下にコピーすればn数はいくらでもデータができます。今回は100個にしました。これを隣のRUN〇シートのA列の5行目以下に「値の貼り付け」で貼り付けしてください。そのままコピーすると式もコピーしてしまいますので、乱数で都度数値が変化してしまいます。②Y~AA列はヒストグラム用にそのシート毎に分析ツールのヒストグラムを用いて新たに実行してください。AB列の数値は正規分布曲線を描くための計算式が入っています。ヒストグラムの第2軸で描いています。③ヒストグラム下の図が、分散(nで割った数値)と不偏分散(n-1で割った数値)をn数を横軸にして計算したものです。 分散を直接計算すると面倒なので、標準偏差を2乗しています。標準偏差は、STDEV.P(旧いExcelはSTDEVP)とSTDEV.S(古いExcelはSTDEV)を用いています。STDEV.Pがnで割った数値、STDEV.Sが(n-1)で割った数値です。
5回実行してみました。乱数発生で得られた100個のデータでは、正規分布曲線(赤の曲線)には、まだ合致していません。興味がおありでしたら、もっとn数増やしてみてください。分散と不偏分散の数値をn数を横軸にしてプロットした図をご覧ください。正規分布に合致した分布でないので、いろいろな形になっていますが、n数が増加すると分散1(赤線)に漸近していきます。n数が30~50ぐらいから安定する領域に入ってくることが直感的にわかると思います。赤矢印は、エイヤーで収束の始まりに入れてみました。分散と不偏分散の違いもn数が増えると影響はなくなってくることもわかると思います。数学的な自由度という意味では必要かもしれませんが、十分n数が多いところでは気にしなくとも良さそうです。
上述のような簡単なシミュレーションを実施してみて、イメージすることが大事であると個人的には思います。