統計の計算に「自由度」という言葉が出てきます。実は、昨日の「自由演奏会」のブログの中ほどで似た話をしています。「1+〇=5」という式があった時、〇に入る数字は4しかないですね。「〇+△=5」という式ならどうでしょうか? 〇と△はいろいろな組み合わせがでてきますね。正の整数だけでも、0と5、1と4、2と3の組み合わせがあります。負の整数あるいは実数まで入れると数限りない組み合わせが出てきそうです。つまり自由に選べる数が多いことを「自由度が大きい」というのです。
X、Y及びZの平均値は、(X+Y+Z)÷3です。この答えがわかっていない時、X、Y及びZの3つの変数は自由に選べるので、「自由度は3」です。X=2、Y=3で平均が「5」の場合は、(2+3+Z)÷3=5 となり、自動的にZ=10と決まってしまいます。つまりXとYを自由に決めると、残りのZは自動的に決まってしまうので、この場合は「自由度は2」といいます。 自由度を一般式で書くと、自由度=(変数の数)-(制約数)となります。 後者の場合、変数の数はX、Y及びZで3つ、制約数は平均値5のことで1つですので、自由度=3-1=2 となるわけです。 つまり、n個の平均値がわかっている場合は、n-1個の値が決まれば、残りの1個は自動的に決まってしまいます。つまりn-1は自由な値をとることができます。このn-1が自由度です。
統計では、数が多過ぎてデータを収集できない集団を「母集団」と言います。その場合は、母集団から幾つかデータを抜き取って標本とし、母集団の「平均値」や「標準偏差あるいは分散(ばらつき)」を推定します。 2018年3月のブログ「統計クイズでアレルギー解消」の問題10のところで以下のように説明しましたが、今読んでも分かり難いですね。補足説明します。標本として抜き取ってきたサンプリング数nは既知ですので、標本の平均値Xavは上述の制約数です。したがって自由度=nー1となり、不偏分散はnー1で割ります。 母集団の平均値μは未知なので、制約数はゼロです。したがって、この場合の自由度=nー0=nとなり、母分散はnで割ることになります。
「再掲」 自由度は未だに腑に落ちないですね。 特に不偏分散を算出する際に、n-1で割りますね。 標本の内、n-1の数値がわかれば平均値の算出式から残りの1個は自明であるので自由度はn-1であるという説明が多いですね。または、標本の分散=∑(xiーxav)2/n ≼ 母分散=∑(xiーμ)2/n なので、標本の分散を母分散に近づけるためにnでなくn-1で割って不偏分散=∑(xiーxav)2/(n-1)にするという説明もあります。