今までも種々の分布について取り上げてきました「全ての分布は正規分布に通じる」。 本日は、私もあまりお目にかかったことがない「ベータ分布」について触れます。この分布はベイズ統計との関連性があるようです。
資料ご覧ください。 → ベータ分布
Excelファイルも合わせてご覧ください。 → ベータ分布
p.1 まず導入部です。 「ベルヌーイ試行」と言う言葉は、統計の教科書の最初に登場してきます。合格率60%の試験が1回実施された場合、合格率は60%ですね。 試験を5回実施して、k回目の合格率をプロットしたものが、二項定理と言って皆さんのお馴染みの式で計算できます。期待値はnpですので、5×0.6=3となり、右下の図のピークと合致しますね。
p.2 いよいよ「ベータ分布」です。 コイン投げをすると通常は表・裏の出る確率は1/2ですね。 イカサマ氏のコインは表が出る確率は、1/2かどうかわからずxとします。 この場合、データを基にxを推定する必要があります。この時に、「ベータ分布」を用います。 定義式はα、βあるいはa、bで表されている式がほとんどです。 コインの流れからするとm、nで表した方が理解し易いです。m=αー1、n=βー1に置き換えるだけです。mとnで表すと二項分布の式によく似ています。異なるのは二項分布の組合せ(コンビネーション)の代わりにB(α、β)という係数が掛かっているだけです。このB(α、β)は、分子を0から1まで積分した累積値で規格する係数です。この係数は、α及びβが整数の場合は階乗を用いて計算することができます。 実際にやってみると理解を助けます。 左下の表のようにα、β(m、n)を変化させて、xに対する確率密度関数f(x)を求めてみます。詳細はExcelを眺めてみてください。右下のグラフが描けます。 このグラフの意味するところを説明します。α=1、β=1(m=0、n=0)の場合は、コインを1回も投げ上げていないので、表が出る確率xを見積もることはできず一様(水平線)になります。 α=2、β=3(m=1、n=2)とα=4、β=7(m=3、n=6)をご覧ください。m:n=1:2ですので、表の出る確率は何れも1/3です。ところが、グラフのオレンジ色と緑色を比較してみてください。緑の方がピーク値が大きいですね。表が出る確率が1/3であることをオレンジ色より自信を持って言えることを示しています。 ベータ分布は、このように不明な確率を推測する手法として用いられます。
p.3 Excelには、ベータ分布の累積確率密度関数を算出する計算式があります。「BETADIST(x、α、β)」です。累積ですので、確率密度関数を算出するためには、一つ前の値を差し引きます。 こうして算出した値は、p.2の算出式の値に比較して小さい値になっています。曲線の下の面積が1になるように標準化されているようです。
このベータ分布がベイズの定理と関係があることについては、次回説明します。