最確数法の説明でポアソン分布は後日説明するとしましたが、先に「二項分布」について説明します。
資料はこちら → 二項分布→ポアソン分布
Excelファイル → ポアソン分布
p.1 以前のブログ「悩ましい抜取検査数の設定」の添付資料の再掲です。二項分布を赤白玉で説明しています。赤玉をr個取り出す確率を場合分けして求めると2項分布の式と一致します。
p.2 左がコインを8回投げて表が出る確率を2項分布の式で算出し、グラフにしてあります。表裏が出る確率は五分五分なので8回投げると4回表がでる確率が多いことは直観でも予測できますね。一方、不良率20%の製品10個づつの箱に分けた場合、1箱に2個不良が入る確率は一番高いことも2項分布の式から求められます。統計によく出てくる「期待値」と言われるのが、この分布のピークのことを言っています。 期待値npは、「n:試行回数」と「p:確率」の掛算です。コインの事例の期待値np=8×(1/2)=4、右の製品の期待値np=10×0.2=2と計算され、ピーク位置と一致します。期待値は分布の平均値と考えてください。
p.3 成功と失敗が互いに独立している場合「ベルヌーイ試行」と呼び、n回繰り返し成功する離散的(飛び飛び)確率分布があったとします。この分布の「期待値」と「分散」が4行目以下記してあります。1回だけ試行した分布の期待値=p、分散=p(1−p)となります。 以前にばらつき(分散)をてんびんで説明しました。ブログ「統計を敬遠する方、理解したい方へ」をご覧ください。 今回は、2項分布の期待値及び分散を天秤で考えてみましょう。真中の図をご覧ください。0から1までの確率の天秤を考え、期待値(平均)の確率をpとします。サイコロの1が出たとき1、それ以外の目が出たときは0という点数をつけます。1が出る確率はp(=1/6)、それ以外出る確率(1-p)です。期待値は、点数×確率の和で求めます。次に、平均からの距離(偏差)の2乗を求めます。1の目が出る場合は(1-p)2、それ以外の目の場合は(0-p)2=p2 で表されます。各々の確率を重みとしてかけて足し合わせたものが分散になります。平均pの周りのモーメントの和だと思ってください。n回試行の場合は、n倍するので、期待値=np、分散=np(1−p)になります。
p.4 コインを4回投げた際、表が出る期待値はnp=2なので、2回が期待される回数となります。確率が1/2なので直ぐ予想できますね。ではサイコロを200回投げて1がでるのは?np=200×(1/6)≒33.3回、分散より標準偏差を求めるとσ=5.27です。 グラフに描いてみました。33.3回にピークがある釣鐘状の分布になります。試行回数が増えると正規分布に近づいていきます。 実際は、離散(飛び飛び)的な分布です。
p.5 n=20の場合の分布は、左の方にシフトしてきますね。 n数を変えてプロットしてみます。n数を増やしていくと2項分布は綺麗な釣鐘状つまり正規分布に近づいていくのです。ピークの幅(分散)は拡がっていき、ピーク高さも低くなっていきます。
p.6 「ポアソン分布」は、2行目の式で表されます。試行回数nを5、20、40、60及び100回、確率pは0.5と0.05と変化させて2項分布とポアソン分布を描いてみます。右の上5個のグラフがp=0.5、下の5個のグラフがp=0.05の場合で、青が2項分布、オレンジ色がポアソン分布です。左の2つのグラフは、2項分布とポアソン分布の高さの差を描いています。「np≤5 n>50のとき近似可能 」であることがわかると思います。nが大きくて、pが小さい時に、ポアソン分布は2項分布と近似してきます。
p.7 2項分布の式を変形していき、n→∞とするとポアソン分布の式に導くことが可能です。
以上のように、2項分布のnを大きくすると正規分布、小さくするとポアソン分布になりますので、2項分布は大事な分布ですね。