先日、勉強会にて自由度に関する質問がありました。自由度の概念はなかなか腑に落ちないですね。いろんな場面で登場してきますので、少しまとめておきます。
資料はこちら → 自由度
p.1 Webサイトで自由度の定義などを調べ、リストにしておきます。一番上の青字が一般的な定義です。例えば、7つの帽子があります。日替わりで1個ずつ選ぶと、6日目で最後の一つは決まってしまいます。この時の自由度fは、f=7−1=6になります。10個のデータがあり、その際に平均値がわかっているとすると、9個のデータがわかっていれば、残りの1つのデータは定まります。この時の自由度f=10-1=9となります。定義の「観測値間に必要な関係の数(パラメータ推定値の数)」は、この場合、平均値です。 次に、1サンプルのt検定の場合は、平均の推定に自由度1を使い、変動の推定に残りの自由度n – 1を使うことになります。不偏分散の分母が「n-1」となる理由がこれです。分子に平均値が入っています。この分1をnから引くことになります。母分散の場合の平均値は、神のみが知るμなので、自由度はnになります。右表にある2×3の分割表においてχ2検定を実施する場合の自由度fは、f=(r-1)(c-1)= (2-1)(3-1) =2で求めます。rは行数、cは列数です。表の空欄のうち2箇所の「?」の数値がわかれば、残りの空欄が定まります。上述で求めた自由度と一致します。 最後は、回帰直線の自由度は、f=n-2です。回帰直線は傾きと切片が決まれば、決まるので「2」を引きます。あるいは、回帰直線は傾きと切片を求める際に、回帰直線とデータとの差(残差)の平方和がミニマムになるために2つの偏微分=0の式がある(p.4の①及び2式)ので「2」を引きます。また、回帰直線は、xとyの平均値を求める2式で決まる(p.4の一番下の式)ので「2」を引くと言ってもよいと思います。相関係数も同様に「n-2」となります。
p.2〜4は、回帰曲線の信頼区間算出の説明資料の再掲です。