データサイエンス トピックス

当てはまりがよいのは

投稿日:

以前、重回帰分析で項目間の相関係数が近い場合、「多重共線性」が生じ、計算不能になったりする不具合が生じるため、その対策法を紹介してきました。以前の関連するブログは「もう一つの回避法」「良過ぎる場合の対処法」「相関が良すぎてもダメ」です。 本日は、「総渡り法」を紹介します。

資料はこちら → 符号逆転

p.1 γ-GPT目的変数飲酒量・喫煙およびギャンブルを説明変数として重回帰分析を実施します。今回は、Excelの「データ分析」(分析ツール)の「回帰」を用いて実行した結果を載せておきます。赤枠が、各説明変数の係数及び切片です。重回帰式を下欄に示します。左表の数値より、喫煙とギャンブルはほとんど同じ数値なので、相関係数は高いはずです。にもかかわらず、重回帰式のギャンブルの係数は負の値になっています。確認のため、各説明変数間の相関係数をExcelのデータ分析の「相関」を実行してみました。γ-GPTの列をみると全て相関係数は正の値です。したがって、重回帰式の負の値がおかしいと考えられます。喫煙とギャンブルの相関係数は0.9とかなり1に近い値のため、「多重共線性」に近い状態になっているようです。

p.2 説明変数を1個、2個及び3個モデル式を7つ作成して重回帰分析を「総渡り」で実施します。実施した結果の係数黄色及びピンクの枠内にまとめておきます。モデル1〜7のどれが一番合っているかを判定するために、AIC(Akaike's Information Criterion:赤池情報量基準)を用います。AICの数値が小さいほど、モデルの当てはまりがよいそうです。この式の意味はまだ理解できていませんが、使ってみます。残渣の平方和Seを算出する必要があります。残渣は、各モデルの重回帰式にデータ1〜20の値を代入して「yj_i」とし、そこから実測値「yi」を差し引いて平方和を求めたものです。モデル1〜20のAICを算出して青枠内に記載しました。この中でAICが一番小さいモデルNo.4が重回帰式としての適合度が大と判定します。つまり、説明変数として、飲酒と喫煙は採用しますが、ギャンブルは用いないことになります。以前、「多重共線性」の対応策として、相関係数が高い場合は、2つのうち1つを説明変数から外していましたので、このAIC法と合致していました。 以上、重回帰式が得られても、その式の妥当性を十分検証する必要がありますね。統計ソフトに任せっぱなしはダメですよ。

今回用いたExcelファイルは → 符号逆転

-データサイエンス, トピックス

Copyright© 進化するガラクタ , 2025 All Rights Reserved Powered by STINGER.