昨日に続き、昔読んだ本を再読していて、また嬉しいことが続きました。今まで疑問に思っていたことが説明されていたのです。疑問は、「母集団からサンプリングした標本の平均値の標準偏差は母集団の標準偏差σを√nで割るのはなぜか?」というものです。 前回読んだ際は、この箇所を読み飛ばしていたかもしれません。私の場合、流し読みすることが多いので。この本は、図書館から借りた「QC数学のはなし」(著者:大村 平 発行所:日科技連)です。 品質系の方は、是非一読した方が良いと思います。先輩にも勧めてください。抜取検査も分かり易く説明されています。
さて、疑問に思っていたことは何か。次の資料ご覧ください。 → 標本の標準偏差
p.1 この資料は、以前のブログ「分布に有意差がある無しとは?」に添付資料の最終ページです。 少し手直ししました。 右下の黄色の背景の文章を追加しました。母集団の標準偏差σが不明の場合は、標本の標準偏差sを用い、√n-1で割っています。sも不偏分散なのでn-1で割っています。
p.2 今回の疑問についての説明です。正規分布はN(μ、σ2)という記号で示します。つまり、N(平均値、分散)です。母集団N(μ、σ2)から1個x1をサンプリングしてきます。続いて2個目x2をサンプリングしてきます。この2つの標本の分布は「加法性」が成り立ちますので、N(μ+μ、σ2+σ2)=(2μ、(√2σ)2)という正規分布になります。x1とx2の平均xバーの分布は2で割ってN(μ、(σ/√2)2)となります。分散を標準偏差に直すとσ/√2となる訳です。 サンプル数をn個に拡張しても成り立ちますので、平均値xバーの分布の標準偏差はσ/√nとなります。 母集団の標準偏差が不明の場合は標本の標準偏差sを用いてs/√(n-1)となります。 ばらつき(分散)が平方和で加法性が成り立つところがミソですね。 皆さんはご存知だったかもしれませんが、私はスッキリしました。 案外この辺の話は、当たり前のことなのか説明している統計の本をみたことがありません。
因みに、このσ/√nは、「標準誤差」と言います。平均値μを推定する際に、n数を増やすとこの項が小さくなり精度が上がるので、誤差という言葉に合っていますね。
蛇足ですが、著者は面白いことを言っています。「μ」はギリシャ文字でローマ字の「m」に相当するそうです。xバーやmは標本の平均値に使用されます。「μ」は母集団の平均値で「真の姿は神のみぞ知る」ということでギリシャ文字を使用しているとのことです。