トピックス 統計

回帰曲線の信頼区間、予測区間とは?

投稿日:

ここ1週間ほど、「回帰曲線の信頼区間をどう描くか?」を考えていました。計算式はWebsiteでも掲載されているのですが、なぜその式になるか分かり易い説明資料が見つからないのです。1つ見つかったのですが、理解できないのです。いろいろな資料を見ていくうちに漸く完全ではないですが理解できたので、忘れないうちにまとめておきます。

資料はこちら → 回帰曲線(信頼・予測区間)

Excelファイルはこちら → 信頼、予測区間

p.1~3 データ(xi、yiよりxの平均値(xbaryの平均値(ybar)を算出して、x及びyの偏差を計算して、xの偏差の平方和Sxxyの偏差の平方和Syyそしてxの偏差とyの偏差の掛算の和Sxyを算出します。yiと回帰式上のyhatとの差の平方和が最小になる場合の係数AhatBhatを算出するのが最小二乗法でした。p.3下に求めた係数をSxx、Syy及びSxyで表してあります。ここまでは、以前のブログ「いい加減に覚えると後が大変」の復習です。相関係数r決定係数r2の違いも説明しています。

p.4 悩んでいたのは、上述の回帰式の係数AhatBhat分散の式の意味がわからなかったのです。特にBhatの分散の式中でNで割っている意味が理解できませんでした。Vybarつまり標本平均の分散なので青字のようになり、√Nの二乗なのでNになると考えればよいことで納得しました。間違った理解かもしれませんが、前に進めるためそれ以上つっこまないように決めました。 回帰式の信頼度1-αの信頼区間が黄色で網掛けした式になります。 以前のブログ「悩ましいサンプリング数の設定」で母集団の平均値標本の平均値標準偏差から統計的に推定する話をしました。 今回の回帰曲線が標本の平均値に相当します。ルートの中が標準偏差に対応します。平均値は点推定ですが、今回は点が連続した直線になります。

p.5 今まで信頼区間だけ描けばよいと思っていたのですが、「予測区間」というものがあります。決定係数rが小さい場合は、回帰曲線からかなり偏差が大きくずれることがあります。回帰曲線が上述の信頼区間内に入っても、データは回帰曲線から大きく外れることがあります。そこで1-αの信頼度で分布のばらつく範囲を予測区間とします。データの分散(σ)分を回帰曲線の分散に加算します。なので√内に1が足されているのです。グラフを見てください。

p.6 実際のデータでExcel計算すれば、理解が速いです。Excelの関数、SUMPRODUCT、SUMSQあるいはTINVを使用すると計算が容易になります。覚えましょう。

式の意味を考えてわかるとスッキリします。今回、回帰曲線が1次関数ですが、何次曲線でも考え方は同じです。

-トピックス, 統計

Copyright© 進化するガラクタ , 2024 All Rights Reserved Powered by STINGER.