トピックス 統計

信頼度を上げようとすると焦点がぼやける?

投稿日:

今までにも断片的には説明はしてきましたが、「統計的推定」について、資料をまとめてみました。 仮説検定とも密接な関係がありますので、ご理解ください。 推定は、仮説検定の帰無仮説の範囲が信頼区間になります。

資料はこちら → 統計的推定

p.1 標本より母集団の特性(平均値や分散)を推定することを意味します

p.2 推定に入る前に、統計用語の違いをご認識ください。標準偏差(SD)は、データそのものの「ばらつき」を表します。これに対して「標準誤差(SE)」という言葉があります。既に何回か説明中に登場してきています。母集団の標準偏差σあるいは標本の標準偏差s(σが不明の場合)標本のサンプルサイズの平方根で割った値が「標準誤差」です。後で詳細に説明しますが、推定した母集団の平均値の信頼区間を示しています。分母のサンプルサイズが増すほど標準誤差は小さくなっていきます。グラフにSEと書かれていたら意味をくみ取ってください。

p.3 上述に言葉で説明したことを絵にしてみました。SDはデータそのもののばらつき、SEは推定した母集団の平均値の95%が含まれる信頼区間を示しています。

p.4 以前に説明しました(再掲)。2つの標本があり、各々の平均値がx1とx2、標準偏差は母集団のσと同じとします。この2つの分布の値を加算した分布が真中の分布です。x1とx2の期待値は母集団の平均値μなので、ピークは2μ、分散は加法性が成り立つので、2σになり標準偏差はその平方根なので、√2σになります。 この分布の平均は、一番下のように平均値μ標準偏差は(σ/√2)となります。標本数nの場合は、(σ/√n)となります。

p.5 標準偏差(σ/√n)のnが増えると標準偏差は小さくなりμに収束していきます。

p.6 標本平均xbarを基準(標準)化して統計量Tを求めます。有意水準0.05の境界値は1.96。統計量Tは、-1.96~1.96内(95%の信頼区間)にあると推定します。この不等式をμについて変形して、母集団の平均値μの推定範囲が得られます。母集団の標準偏差σが不明の場合は、標本の標準偏差sを用い、nの代わりにn-1を用いた式になります。

p.7、8 上述のμの推定式の緑枠部分が許容誤差Eとし、nについて解くと、サンプルサイズが算出できます。

p.9 母集団の平均値μを、標本のデータより推定する問題です。読んでいただければ、理解できると思います。

p.10 上述で求めた43.3~44.9kgの範囲を信頼区間と呼びます。その半分が精度です。有意水準0.05は、95%がこの信頼区間内にあることを示しています。

p.11 p.9の信頼区間をサンプルサイズ(横軸)に対してプロットした図です。ここで、着目していただきたいのは、有意水準が小さくなるほど、信頼区間は拡がるという事実です。信頼度を上げようとすると、焦点がぼやける? ウソを言いたくないので曖昧になる? というところでしょうか?

p.12 信頼区間の上半分だけ示しています。赤線青線より信頼区間が広い場合です。ある製品の許容誤差をE(緑の水平線)とします。検査費用がサンプルサイズに比例するとします(オレンジ色の直線)。許容誤差Eと青あるいは赤の曲線が交わったところのx座標が最小限必要なサンプルサイズnをしめしています。信頼区間を拡げるためにはサンプルサイズを多くして検査する必要があります。サンプルサイズの垂線とオレンジ色の直線の交点を右側に水平の外挿した点のy座標が検査コストです。信頼区間が広い方が、サンプルサイズと共にコストが高くなります。検査に必要なサンプルサイズは、信頼度とコストを考慮して決めてください。

p.13 人数が少ない場合には、補正が必要になります。例題をご覧ください。

p.14 母分散の推定もできます。分散の推定でも、検定同様χ乗分布を利用して計算します。95%の白い部分に入る不等式を立てて計算していきます。

-トピックス, 統計

Copyright© 進化するガラクタ , 2021 All Rights Reserved Powered by STINGER.