決まったものか、未知なものか？

投稿日：2022年7月28日

従来の統計学とベイズ統計は、母集団についても考え方が異なります。

資料をご覧ください　→　ベイズ統計10

p.1　従来の統計学は母集団は、平均値や分散が決まっている「定数」としてみますが、ベイズ統計学の場合は、「確率変数」として取扱いします。母集団は未知なもの、データによって変化するものと捉えています。確かに、母集団からサンプリングした標本により推定している母集団を正確に推定はできないですね。全数検査しない限りは、母集団の正確な値は求められないわけです。　ベイズ統計は、最初から母集団は未知なものとしているようです。

p.2　今までは離散的な値、デジタル的な値で確率を計算してきましたが、連続的な正規分布のようなものに拡張します。「全確率の定理」において、無限級数を積分に置き換えると連続関数になります。

p.3　尤度は正規分布のあるデータDにおける確率密度になります。左が離散的な場合、右が連続的な表記です。

p.4　「周辺尤度」のP(D)の逆数を比例定数ｋと表記します。「事後確率（事後分布）は、尤度と事前確率（事前分布）の積に比例する」と言えます。

p.5　ペットボトルの内容量の分布をサンプリングして得たデータを基に、事後分布として計算できます。事前分布は不明なので、かなり大胆に仮定して計算していきます。一番最後の計算にしても比例係数は無視して、正規分布の平均値と分散を求めています。サンプリングサイズが３個なので、かなり強引な部分はありますが、得られたデータからの予測はできていると思われます。

p.6　上述の分布を描いたものです。事後分布は分散が小さく平均値が右寄りです。サンプルサイズがn=3なので止むをえませんが、ベイズ統計はこの解析をリアルタイムで実施していく場合に威力を示すと思います。

従来の統計学とベイズ統計学のスタンスの違いは理解できたでしょうか？新しいデータを集積して予測の精度を上げていく手法としてベイズ統計は今後も活用されていくと思われます。