統計の事例を何回か説明してきました。イメージを掴むことが大事であると思います。できるだけ絵を使って説明しようと思っていますが、拙い絵なのでなかなか伝えきれていないと思います。今日は、統計の中で重要な「中心極限定理」のイメージを伝えたいと思います。以前にも説明したかもしれませんが、図をリニューアルしました。
資料はこちら → 統計のイメージ
p.1 中心極限定理とは文字通りです。 母集団からn個のサンプリングして標本にします。現在実施の国勢調査のように全数に近い情報を得ることができないことがほとんどです。標本を用いて母集団の分布(平均値や分散)を推定しなければなりません。標本にも平均値xiバーや分散(標準偏差の二乗)があります。標本を幾つか作ります。その標本の平均値の分布ができます。その平均値は、母集団の平均値に一致していきます。標本をたくさんとればとるほど精度が上がります。母集団の標準偏差σがわかっている場合、標本平均の分布の標準偏差はσ/√nとなります。母集団の標準偏差が不明な場合は、標本の標準偏差s/√(n-1)が標本平均の分布の標準偏差となります。 ここまでは、統計の本にも書かれています。次ページよりイメージを示します。
p.2 標本平均の分布の標準偏差はσ/√nですね。サンプル数nを増やしていくと、分布はばらつきがどんどん低減してゼロになります。当たり前と言えば当たり前ですね。母集団と同じn数の標本の平均値xバーは母集団の平均値μと等しくなる訳です。
p.3 これは以前のブログ「経済も物理も時間の平方根で拡がる」の資料から再掲です。出典は「経済数学の直観的方法」(著者:長沼伸一郎、発行所:講談社)です。左図のようにデータが並んでいたとします。横軸60の位置にデータが5個あります。平均値(中心値)を60として、平均値との偏差の絶対値を全て足し合わせ40が得られます。 誤って平均値(中心値)を59とした時の偏差の絶対値の和は45となります。平均値(中心値)を58~62にして同様に計算したものが右下です。正しく平均値(中心値)を60とした場合に偏差の絶対値の和が最小になります。 世の中の出来事は全て平均値に収束するとはこのことを言っているのでしょうか? 以前「森羅万象 平均的なものからのズレをなくす方向に動く」でも説明しました。エネルギーが低いところに集まってくるのです。中心極限定理もこのようなイメージと結び付けるとよいかもしれません。別の見方をしてみました。
p.4 標本平均の分布の標準偏差がσ/√nで表される理由がずっと不明でした。このイメージ図は長沼先生の本を読んで私が自分なりに描き直した絵です。 長沼先生は、パチンコの玉が上から下方に向かって釘に当たりながらジグザクに落ちていく例を用いて分布の拡がりを説明しています。世の中の物理現象は√t(時間)に比例して拡がっていくそうです。何故かはまだ理解していません。パチンコの釘が1段目下降した場合の標準偏差をuとします。n段目では√nだけ横に拡がりますので標準偏差は√n・uとなります。これが母集団の標準偏差σに等しいので、σ=√n・uとなります。つまり、u=σ/√nです。
いかがですか? 私は、こんな感じでイメージしています。難しい式よりも覚えやすくないですか? 明日は不偏分散でnで割らずにn-1で割るイメージについて説明します。